¿Cómo mejorar los portales de Open Data?

4653 lecturas

Open Data wordlePara nadie que lea este blog regularmente debiese ser novedad mi interés en el movimiento Open Data, el cual ha ido ganando momentum en los gobiernos nacionales y locales. Mi impresión es que en América Latina ya está más o menos instalado el concepto de que es una buena idea publicar datos para que otros los usen: Aunque puede pasar cualquier cosa, mi impresión es que la tendencia será que cada vez más y más organizaciones (desde gobiernos nacionales y ministerios hasta municipalidades) van a empezar a liberar sus datos.

Por lo anterior, creo que es necesario que empecemos a preocuparnos de los problemas de segundo orden en Open Data, y eso es lo que quiero discutir en este artículo. No voy a apuntar a proyectos específicos, pero hay muchos que adolecen en mayor o menor grado de al menos uno de los siguientes puntos.

Cantidad *y* calidad

Uno quisiera que los portales de datos de gobierno tuviesen grande volúmenes de datos de altísima calidad, curados y revisados. Lamentablemente, la experiencia indica que calidad y cantidad son conflictivos: No es factible tener cientos de miles de datasets de alta calidad, sobre todo considerando los presupuestos que manejan las agencias asociadas a Open Data. Por lo tanto es necesario hacer un trade off, muchas veces optando por publicar unos pocos datasets como datos de alta calidad y el resto en el estado en que estén. El problema está en decidir en qué datasets enfocarse, y ahí está el siguiente punto que quiero recalcar.

Me ha tocado ver portales que no cumplen ni lo primero ni lo segundo: Pocos datasets donde la mayoría de estos contienen errores de formato, datos incompletos, o derechamente no están disponibles.

Datasets con "sex appeal"

Es triste, pero muchos proyectos de Open Data no entienden que no todos los datos son igualmente importantes para la ciudadanía. Por ejemplo, agricultores estarán más interesados en información climática y de disponibilidad de agua, mientras que la gente en la ciudad querrá conocer datos sobre el transporte público. No es descabellado pensar que el "sex appeal" de los datasets cumplan una ley de potencias donde unos pocos datasets sean interesantes para mucha gente, mientras que muchos otros datasets son interesantes para unos pocos. Este "sex appeal" puede ser útil para identificar qué datasets deben recibir mayor atención, en términos de presentación y curación.

Múltiples audiencias

Uno de los problemas más comunes en los portales actuales, es que muchos no entienden que se debe servir a al menos 2 tipos de audiencias: El usuario que desea explorar los datos en el sitio y el usuario (no necesariamente humano) que desea descargar estos datos parar utilizarlos en sus propias máquinas.

Esto implica 2 cosas. La primera, que es necesario tener buenas visualizaciones de los datos para el visitante casual, de manera que los ciudadanos puedan entender qué representan éstos. Existe muchísima literatura relativa a diseño de experiencia de usuario, ciencias cognitivas, interacción humano-computador, entre otros, que se enfocan a cómo resolver el problema de humanos interactuando con un sistema (en este caso un portal de datos) de manera de hacerlo más fácil para ellos.

La segunda, el usuario que busque los datos crudos no debiese verse obligado a pasar por una visualización primero sólo por que es choro/chévere/guay/cool. Esto es especialmente cierto si el mecanismo de acceso a los datos está hecho en Flash o incluso Javascript, lo que en términos prácticos es como bloquear el acceso a los datos a agentes no humanos (ej. crawlers).

Incluso uno podría ir más allá y pensar en subdividir a los usuarios humanos en múltiples grupos: Investigadores, estudiantes de colegio, ciudadano común y corriente, etc. Una buena subdivisión de la audiencia permitiría mostrar diferentes dimensiones de los datos para cada subgrupo, de manera de no bombardear con información excesiva a personas que no requieren el mayor grado de detalle.

Meter ruido

En muchos casos, hay un problema cuando existen buenos portales disponibles pero muy poca gente los conoce (o apuntan a una audiencia que no es la más interesada). Por lo anterior, no basta con publicar datasets; Es necesario "meter ruido", es decir, organizar eventos, promover el conocimiento acerca de la existencia del portal y mostrar qué es lo que se ofrece para los distintos tipos de audiencia.

Esto es cierto no sólo hacia la ciudadanía en general, sino dentro de otras organizaciones del gobierno. Muchas de ellas ya son usuarios habituales de datos de gobierno, pero muchas veces no saben donde buscarlos (excepto enviando emails para pedirlos).

ROI del Open Data

Un proyecto de Open Data no es muy diferente a otros proyectos en el sentido que deben justificar su existencia con resultados medibles. Es importante mostrar que las iniciativas de Open Data están siendo utilizadas por la ciudadanía, o al menos que se ven ciertos movimientos iniciales por parte de grupos, organizaciones sociales o individuos. Las decisiones de si un proyecto Open Data continúa o no generalmente está dado por personas que conocen el movimiento desde fuera y es importante mostrarles frecuentemente el peso e importancia que estos generan.

Hay varios puntos más que podría tratar, pero creo que estos son los más importantes.

¿Qué crees tú que le faltan a los portales de Open Data para ser usados por la gente de manera masiva?

Imagen: Digiphile'sblog

Foto de Alvaro

— PhD en Ciencias Cognitivas e Investigador en temas de Open Data, Visualizaciones, Web Semántica, eScience y Web Science. Ingeniero civil en computación. Más información »