A 1 año de la Ley de Transparencia (parte II)

5071 lecturas

Hace un tiempo atrás(*) comenté sobre los resultados de la ley de transparencia en su primer año de puesta en marcha. En esta oportunidad quisiera comentar lo que creo debiesen ser los siguientes pasos que apuntan a la misma dirección.

Ejemplo: Resultados del SIMCE

Imaginemos que alguien está haciendo una investigación sobre educación en Chile, quiere buscar información sobre el SIMCE (Sistema para la Medición de la Calidad de la Educación) del año 2009 para finalmente hacer una aplicación. Gracias a Google y un par de clicks, llego a los archivos públicos disponibles. Pero para llegar a los datos falta todavía. Los archivos son .zip, por lo que debemos descomprimirlos.

Ahí nos encontramos con dos subdirectorios "4TO" y "8VO" cada uno con información sobre las pruebas realizadas a cada nivel (en otros años usan otras convenciones para nombrar directorios). Dentro de los directorios hay varios archivos Excel con nombres como RST_COMUNA.xls. En cada archivo están los datos con nombres como "Iquique Totales Comuna".

Podría seguir detallando pero la pregunta es "¿Qué pasa si quiero hacer este mismo trabajo, pero en vez de estudiar el año 2009 quisiera hacerlo para el 2008?¿Y si quiero ver todos los años, agrupados por comunas (ej. un timeline de puntajes de cada comuna)?¿O quizás todas las comunas, agrupadas por años (ej. total regional/nacional cada año)? Pesar en tareas más complicadas, como analizar si hay alguna correlación entre contaminación ambiental en cada comuna y los puntajes promedio en cada una, suena una tarea épica, ya que no hay una forma automática de linkear estos datos (contaminación y puntajes SIMCE en cada comuna).

Con la situación existente, contestar las preguntas anteriores significa repetir el mismo trabajo por cada archivo disponible en la web del SIMCE. Peor aún, dadas las diferentes convenciones para nombrar comunas, el uso de tecnología no interoperable y la falta de identificadores en común es muy difícil crear mecanismos automatizables para obtener esa información y procesarla. Esto es equivalente a recibir un puñado de hojas escritas en papel: La información está, pero el formato en que es presentado no permite sacarle todo el provecho posible a esta.

Quienes hemos estado en esto por algunos años sabemos que herramientas como perl, awk, sed y otros (y un poco de suerte para que los datos estén mínimamente estructurados) nos permiten analizar, mezclar o separar estos datos como queramos. Sin embargo, no es razonable esperar que para poder agregar unos pocos datos sea necesario hacer malabares cada vez que queremos cambiar la forma en que vemos los datos.

Ahora, imaginar cosas como buscar si existe una relación entre los puntajes del SIMCE y (por ejemplo) el nivel de contaminación de cada comuna parece una tarea sólo para expertos y no algo que esté al alcance de los ciudadanos. Más aún, otras personas podrían agregar muchos más datos que podrían enriquecer aún más la información existente, sin embargo la plataforma tecnológica existente no lo permite.

Repositorio central de datos (no de archivos)

Una solución para resolver esto es tener un repositorio centralizado de datos, lo que no es lo mismo que tener un sitio web con miles de archivos en Word, Excel, PDF, etc. No digo que estos archivos no sean útiles ni mucho menos que no deban ser publicados, sino que debiesen ser complementados con una estrategia más integral y global, en la que se entiende que transparencia es una idea que implica el esfuerzo proactivo por parte del gobierno. Es así como ya se ve en Inglaterra y Estados Unidos la idea de un repositorio central donde es posible reutilizar los datos generados por el gobierno.

Conclusión

La motivación de la ley de Transparencia consiste en permitir a los ciudadanos disfrutar del derecho al acceso de la información pública, creando "nuevos espacios para la participación y mejorando las exigencias de rendición de cuentas de la gestión pública". Buena parte de la participación puede ser promovida usando estándares abiertos e interoperables, que permitan a la gente manejar los datos como ellos quieran en vez de tener que hacer "malabares tecnológicos" para obtener las respuestas que buscan.

Finalmente, les dejo una charla muy interesante que dio Sir Tim Berners-Lee hace poco en la Gov 2.0 Expo

Imagen: Daniel Roseca

(*)La demora de esta segunda parte casi obliga a llamarla "A 2 años de la ley de transparencia" :-)

Foto de Alvaro

— PhD en Ciencias Cognitivas e Investigador en temas de Open Data, Visualizaciones, Web Semántica, eScience y Web Science. Ingeniero civil en computación. Más información »