¿Cómo identificar el Open Washing, y mejorar la calidad de los datos abiertos en general?

¿Cómo identificar el Open Washing, y mejorar la calidad de los datos abiertos en general?

Lunes 13 Jul 2015

Durante los años 70's y 80's las tendencias ecológicas y "verdes", llevaron a muchas compañías a mostrarse frente al público como organizaciones preocupadas del medio ambiente. Muchas de estas compañías sin embargo sólo se dedicaron a promocionar esta imagen verde más que hacer algo en concreto. Claro, lanzar avisos publicitarios indicando lo amigable con el medioambiente que es una empresa, sale más barato que realmente tomar las medidas necesarias y modificar los sistemas productivos. A este proceso de lavado de imagen relacionado con temas ecológicos y ambientales se le llamó green washing, algo así como un "lavado de imagen verde".

En esa línea, uno de los temas que a mi más preocupa en las iniciativas de Datos Abiertos, es el tema del Open Washing, lo que podríamos definir como cuando un organismo dice ser abierto, pero en realidad no lo es. Hay varios ejemplos de organismos gubernamentales que dicen ser abiertos, pero no todos caen en la categoría de Open Washing; después de todo, en muchos casos los problemas en la apertura de datos pueden ser de distinta índole (e.g., desconocimiento, desidia o la navaja de Hanlon), y no necesariamente con una intención de lavar la imagen per se.

¿Cómo detectar (el posible) Open Washing?

Como mencioné anteriormente, en muchos casos pueden haber otros motivos que no son el lavado de imagen por lo que los proyectos Open Data no funcionan correctamente. Sin embargo, propongo la siguiente lista de "cosas que hacen sospechar que un organismo está lavando su imagen"(*). Esta lista está ordenada de mayor a menor "sospecha" de Open Washing, y está basada meramente en mi experiencia personal, no hay nada muy científico en esto.

  • Reticencia de responder solicitudes de información: En muchos casos los datos de un organismo no han sido publicados, y es razonable que la sociedad civil los pida. Sin embargo, muchas veces el celo de las organizaciones hace que busquen cualquier excusa para no liberar esos datos.
  • Datos irrelevantes: Si yo fuera el encargado de abrir datos de un organismo pero no quisiera hacerlo realmente, lo primero que haría sería publicar datos absolutamente irrelevantes. Hay varios ejemplos de esto a nivel nacional y municipal en varios países latinoamericanos, basta buscar un poco en Google. La idea es simple: publicar datos que son absolutamente inocuos, inútiles o que probablemente a nadie le importen. Ejemplo de esto son listas de cosas o lugares sin mayor información, o métricas que nadie fuera de la organización entiende, las cuales no tienen documentación disponible.
  • Datos incompletos o dispersos: Lo segundo que habría que fijarse es en cuán completos están los datos. Por ejemplo, ¿Están los datos lo suficientemente desagregados?, ¿Es posible encontrar todos los datos relevantes de manera fácil o debo buscarlos en cientos de datasets diferentes?, ¿Están disponibles los identificadores usados y qué significan?
  • Formulario: Quizás el caso más directo de Open Washing es cuando se requiere de un formulario donde hay que aceptar ciertas condiciones para poder acceder a los datos. Algunos ejemplos que he visto han sido donde se permite usar los datos sólo para investigaciones académicas, donde muchas veces se requiere informar sobre los reportes y otras publicaciones basadas en estos datos. Incluso algunos exigen que no se mal interpreten los datos(!).
  • Interfaz propia: En la misma línea del punto anterior, muchos organismos te fuerzan a usar su interfaz (buena o mala, es otro tema) para poder acceder a los datos. Esto es muy común en organismos que publican datos geográficos y su afición por sistemas GIS. También hay creativos que desarrollan su propia interfaz web para visualizar datos, sin ofrecer otras alternativas. En muchos casos estas interfaces sí son útiles, pero no debiesen ser la única forma de acceder a los datos.
  • Licenciamiento: En general mi sospecha es que el 99% de los problemas de licenciamiento son causados por desconocimiento de las licencias Creative Commons o licencias más enfocadas a datos, como ODBl, más que a intentos de Open Washing. Sin embargo, en algunos casos las restricciones de las licencias (similares al problema del formulario) hace pensar que la intención es no permitir un uso libre de los datos.

Quiero recalcar que ninguno de estos puntos en sí implica que una organización haga Open Washing, pero si es una posible explicación para estos comportamientos.

¿Cómo reducimos los casos de Open Washing, y mejoramos la oferta de datos?

No tengo una respuesta definitiva sobre cómo reducir este problema. Primero, porque en realidad es difícil identificar si realmente los organismos públicos quieren esconder los datos o simplemente ellos no los tienen, o no saben que los tienen. En segundo lugar porque siempre van a haber excusas, buenas y malas, para no entregar información -basta mirar el el listado de excusas que se han entregado para no publicar datos. No obstante, aquí va una lista de ideas que se podrían considerar:

  • Al crear rankings y evaluaciones sobre el estado del arte de los Datos Abiertos, se debiesen agregar métricas de calidad. Por ejemplo, si en Chile hay datos de transporte, pero sólo de Santiago, ¿Podemos decir que realmente hay datos de transporte? Mi opinión personal es que no se puede decir que "hay datos de transporte" de manera tan absoluta. En la misma línea, ¿Qué pasa si existen datos ambientales, pero sólo hasta el año 2012?, ¿Son esos los Datos Abiertos que esperamos? Nuevamente, al evaluar y considerar rankings, creo que es importante considerar estos aspectos, algo que no siempre se hace.
  • Cada organismo público tiene una misión y una serie de objetivos específicos, y en base a esos objetivos uno debiese pensar cuales son los datos que la ciudadanía espera. Del Ministerio de Salud, espero al menos indicadores de salud. Cabe hacerse la pregunta: ¿Es posible crear una historia suficientemente valiosa con los datos disponibles? En el caso del Ministerio de Salud, ¿Es posible entender la situación actual de la salud con los datos disponibles?
  • Desde la otra vereda, uno podría pensar en listar los datos que son necesarios para poder contar una historia o entender una parte de la realidad. Volviendo al tema ambiental, ¿Qué datos necesito para poder entender la realidad ambiental de mi país, ciudad, comuna? Uno podría pensar en las mediciones PM25 y PM10 diarias de los últimos meses/años, etc. Si eso no está disponible, quizás el organismo público no es tan abierto como aparenta.

(*) Uno podría pensar que cualquier falta una los principios básicos de Open Data da para sospechar, sin embargo, no quisiera ser tan amplio y enfocarme en puntos específicos.

¿Cómo crees que es posible exigir más y mejores datos de los organismos públicos?
Foto de Alvaro Alvaro Graves @alvarograves PhD en Ciencias Cognitivas e Investigador en temas de Open Data, Visualizaciones, Web Semántica, eScience y Web Science. Ingeniero civil en computación. http://www.graves.cl