Open Data en el congreso chileno: Lo bueno, lo malo y lo feo

Open Data en el congreso chileno: Lo bueno, lo malo y lo feo

Viernes 4 Jul 2014

Ayer se lanzó públicamente el portal de datos del Congreso Nacional de Chile. Este es un avance en términos de lo que existía de disponibilidad de datos del Estado. He estado jugando un rato con el portal y quería contarles mi experiencia desde un punto de vista personal.

Lo bueno

Primero hay que destacar que los datos abiertos son siempre algo positivo y bienvenido. En el peor de los casos, tiene un costo pequeño (cuando se hacen bien) y en el mejor, puede producir una serie de procesos técnicos y sociales que benefician a la sociedad, desde mayor transparencia a la ayuda a startups.

Lo segundo es que los datos que se publican en el sitio parecen ser bastante útiles; parece de perogrullo, pero hay varios casos de portales que publican poco o nada interesante, pero igual quieren subirse al tema de Open Data. En ese sentido, se agradece que los datos sean valiosos.

Lo malo

Lo primero que uno nota es que no hay un licencia clara con la que los datos han sido publicados. La introducción menciona que los datasets son publicados "en un formato que permita su utilización libre de trabas o restricciones como derechos de autor, licencias u otros mecanismos de control". Sin embargo no es claro cuáles son los términos exactos en los que publica. A esta altura, el tema de la licencia debiese ser fácil de resolver.

Lo segundo es la variedad (en el mal sentido de la palabra) de interfaces y formatos disponibles. La mayoría de los servicios sirven sólo XML, e incluso algunos usan SOAP!!! En general estas tecnologías han ido en retirada desde hace algunos años, debido a que son demasiado verbosas y engorrosas para los desarrolladores. Incluso en algunos casos, las solicitudes de información se hacen usando un método POST, lo cuál es poco natural a la hora de pedir datos (desconozco si esto es requerido por SOAP). Se extrañan formatos más simples de usar, como JSON e incluso CSV.

Esto nos lleva al tercer problema, que es la falta de dumps de datos. Todo lo que alcancé a revisar requería usar algún servicio (que probablemente llamaba a una base de datos interna). Sin embargo, no hay cómo saber cuáles son los parámetros. Además, si quiero TODA la información, necesito crear un script que baje todos los datos, lo cual es una sobre carga para mi como desarrollador y para el servidor del congreso.

Por último, creo que hacen falta (buenos) identificadores: Esto debiese aplicarse a los senadores, diputados, sesiones, etc. Incluso algunas sesiones que ocurren en distintas fechas tienen el mismo identificador. ¿No debiesen ser distintas? Puede que haya razones legales o tradicionales para esto, pero es confuso al momento de tratar de entender los datos.

Lo feo

Todo lo anterior son problemas técnicos que pueden ser resueltos con más tiempo. Lo que me parece tremendamente feo es que no hay nada de documentación sobre los servicios: Cuántos hay disponibles, cómo se usan, ejemplos, FAQ, etc. Hasta este momento no hay nada de esto. El tema de la documentación me parece mucho más crítico, porque sin ella los desarrolladores van a tener barreras importantes a la hora de usar estos servicios. Esto puede llevar a que este portal en la práctica sea subutilizado, lo que finalmente puede implicar su cierre. Es decir, por falta de documentación, se corta el potencial ciclo virtuoso de publicación y uso de Open Data.

Demo

Sólo a modo de ejemplo, tomé los datos de la sesiones de los senadores, sus votaciones, etc. y armé algunas visualizaciones. El demo está disponible en http://graves.cl/opendata.congreso.cl y el repositorio está disponible en https://github.com/alangrafu/votaciones-senado-congreso.cl.

Foto de Alvaro Alvaro Graves @alvarograves PhD en Ciencias Cognitivas e Investigador en temas de Open Data, Visualizaciones, Web Semántica, eScience y Web Science. Ingeniero civil en computación. http://www.graves.cl