Datos de lobby como Linked Data

Datos de lobby como Linked Data

Martes 10 Feb 2015

Hace algunas semanas publiqué una serie de datos scrapeados de datos sobre lobby. Hoy me entero que el Consejo para la Transparencia en Chile está publicando la información completa en un SPARQL endpoint. Esta es una gran iniciativa, ya que permite poder hacer consultas bien interesantes. Por ejemplo, si queremos saber cuáles han sido los 10 mayores gastos para viáticos, pasajes, etc. debemos ejecutar la siguiente consulta:

  1. PREFIX cplt: <http://datos.infolobby.cl:80/resource/cplt/>
  2. PREFIX foaf: <http://xmlns.com/foaf/0.1/>
  3.  
  4. SELECT DISTINCT ?desc ?inst ?x ?monto  WHERE {
  5. ?thing a ?algo;
  6.          cplt:descripcion ?desc;
  7.          cplt:financiadoPor [ foaf:name ?inst ];
  8.          cplt:monto ?monto .
  9. [] cplt:registraGastos ?thing;
  10.    cplt:realizadoPor [ foaf:name ?x ].
  11. }order by DESC(?monto)
  12. limit 30

Esta consulta se puede poner en la interfaz web de infolobby (http://datos.infolobby.cl/snorql/) y presionamos el botón "Go!". El resultado es similar a la siguiente tabla:

inst name desc monto
ORGANIZACIÓN DE NACIONES UNIDAS PATRICIA ARRIAGADA VILLOUTA PASAJES 4440000
Estado Mayor Conjunto Ricardo Martínez Menanteau Viático 2378857
Estado Mayor Conjunto Jorge Rodríguez Urria Viático 2334948
Ministerio de Obras Públicas, Subsecretaría Sergio Galilea Ocon Viatico 2130479
Subsecretaría de Agricultura Carlos Guillermo Furche Guajardo Viático 1700000
Subsecretaria del Medio Ambiente Marcelo Mena Carrasco Viático 1682069
Subsecretaría del Medio Ambiente Pablo Esteban Badenier Martínez Viático 1682000
Subsecretaría de Defensa Marcos Robledo Hoecker Pasaje (Retorno) 1556156
Subsecretaría para las Fuerzas Armadas Jorge Alfonso Burgos Varela Traslado en avión institucional FACH. Viático incluyó gastos de alojamiento y alimentación. 1417944
ORGANIZACIÓN DE NACIONES UNIDAS PATRICIA ARRIAGADA VILLOUTA VIATICOS Y TRASLADOS 1380000

Entidades más comunes en audiencias

Interesantemente, las organizaciones que están relacionadas con las audiencias no tienen una URI, sino que son modeladas como nodos blancos. Esto no es lo ideal, porque la única forma de saber qué audiencias están relacionadas con "Pérez y Cia." es por el nombre; si en un caso está "Perez y Cia." y en otro "Pérez y Compañía", no es trivial darse cuenta que ambos nombres identifican a la misma organización. Esto es especialmente irónico, dado que en Chile existe el RUT, el cual es un identificador único, y por ende es muy fácil crear URIs para cada organización con él.

Más allá de eso, para poder obtener qué organizaciones relacionadas con audiencias han sido las más comunes, podemos ingresar la siguiente consulta:

  1. prefix cplt: <http://datos.infolobby.cl:80/resource/cplt/>
  2. PREFIX foaf: <http://xmlns.com/foaf/0.1/>
  3.  
  4. SELECT (COUNT(DISTINCT ?entidad) AS ?total) ?entidadName  WHERE {
  5. ?audiencia a cplt:RegistroAudiencia .
  6. [] cplt:registra ?audiencia ;
  7.    cplt:enRepresentacionDe ?entidad .
  8. ?entidad foaf:name ?entidadName .
  9. }group by ?entidadName
  10. order by DESC(?total)

El resultado será similar a la siguiente tabla:

total entidadName
4 BAURPARKASSE SCHWABISCH HALL AG
3 EMBRAER DEFENSA & SEGURIDAD
2 Alenia Aermacchi
2 CERCOPESCA, IV Región
2 Consultora Apolonia Ratinoff E.I.R.L.
2 Empresa de Correos de Chile
2 Endesa
2 Enersis S.A.
2 FUNDACION GRUPOS GTT DE TRANSFERENCIA TECNOLOGICA - FUNDACION GTT
2 Francisco Martinson García
2 Novojet Chile S.A.
2 ROLLER GROUP LIMITADA
2 Radio Club de Chile
2 Sindicato de Armadores de Caldera, III Región
2 TATA CONSULTANCY SERVICES CHILE S.A.
1 ACHET A.G.
1 AGRÍCOLA VALLE NUEVO S.A.
1 ANAC
1 ANFUP Asociación Gremial
1 APR Batuco - Santa Sara

Conclusiones

Probablemente hay muchas preguntas muy interesantes que puedan ser contestadas en base a estos datos. Hay algunos detalles técnicos, como el sobre uso de tipos y el uso de nodos blancos que no me gustan mucho, pero en general creo que es un gran esfuerzo por parte del Consejo para la Transparencia de Chile. Para sacarle provecho a estos datos es necesario tener conocimientos de SPARQL, del cual ya hemos hablado en varias ocasiones, pero esta es una gran oportunidad para desarrolladores y periodistas de poder explorar un conjunto de datos que puede ser de alto impacto.