Compútame, compútame, computadora ... ¿o "computador"?

Compútame, compútame, computadora ... ¿o "computador"?

Viernes 8 Ago 2014

El grupo peruano "Los Continentales" triunfaba en los años 1980s con la pegajosa cumbia La Computadora: "compútame, compútame, computadora // compútame la chica que me adora." La canción me llamaba mucho la atención porque para mí, la máquina que se convertiría en mi profesión era un computador, no una computadora.

Pero, ¿en qué países exactamente dicen "computador," "computadora," u "ordenador"? ¡Twitter al rescate! En un trabajo reciente, Crowdsourcing Dialect Characterization through Twitter, los investigadores Bruno Gonçalves y David Sánchez estudian dialectos regionales del castellano utilizando mensajes geo-localizados en Twitter.

La recolección desde Twitter se hizo usando la interfaz pública de streaming (1% de los tweets), filtrando tweets en castellano detectados con el identificador de idiomas de Chrome. Luego, se seleccionaron los tweets que contenían alguno de estos 131 conceptos, escogidos porque pueden ser expresados de varias maneras y porque no hay ambigüedad en el sentido de que entre ellos no existe solapamiento a nivel de palabras.

Los 75,000 tweets resultantes fueron mapeados a una retícula de 1/4 de grado por 1/4 de grado, aproximadamente 25km x 25km a la altura del ecuador. En cada una de las 1.135 celdas de esta retícula con datos se determinó, por mayoría simple, el término dominante para cada uno de los 131 conceptos.

Para algunos conceptos es muy fácil interpretar las isoglosas, es decir, las áreas que usan la misma palabra. Resulta ser, por ejemplo, que "computador" es una forma relativamente minoritaria, usada principalmente en Chile y en algunas partes de Colombia, mientras que "computadora" es la forma dominante en el resto de América Latina (lo que puede haber contribuido al éxito de "Los Continentales"). Otro ejemplo clásico es que en el cono sur se dice "auto," en la mayor parte del resto de américa "carro," y en España, "coche."

¿Pueden usarse estos datos para determinar grandes dialectos del castellano automáticamente? Sí se puede, y el resultado es muy interesante.

Los investigadores realizaron reducción de dimensionalidad, reduciendo de 131 a 40 las dimensiones de cada celda. A continuación, un clustering usando k-means en 2 clusters, determinó que existen básicamente dos grupos: el de todas las ciudades, y el de todas las áreas rurales. En otras palabras, la gente en las grandes ciudades del mundo Hispanohablante, tiene una forma de expresarse en Twitter que es más o menos homogénea, a pesar de todas las variaciones ejemplificadas más arriba. La real diferencia es entre los habitantes de dichas ciudades y el resto.

Aplicando una vez más el algoritmo de clustering en la parte de los datos que está fuera de las grandes ciudades, aparecen tres grupos dialectales que tienen una interpretación bastante directa. De alguna manera, reconstruyen las fases de la colonización de América. Un grupo está constituido por ciudades de España, otro grupo por el Caribe, México y Perú, y el tercer grupo por los países del Cono Sur.

Los hallazgos de este artículo se suman a una larga lista de ámbitos en los cuales Twitter, o más en general, el mundo online, refleja aspectos del mundo offline. Ésto permite plantear y probar hipótesis utilizando métodos computacionales y estadísticos, contribuyendo evidencia que puede ser usada por áreas de las ciencias sociales y las políticas públicas.

Este artículo está actualmente bajo revisión, y disponible como un pre-print en arxiv:1407.7094.

Foto de ChaTo Carlos Castillo @ChaToX PhD en Ciencias de la Computación, investigador en minería de datos y computación social, particularmente en medios sociales durante crisis humanitarias. http://www.chato.cl/