Razonamiento estadístico: o cuán probable es encontrar mucha sal en un plato de caldo

Razonamiento estadístico: o cuán probable es encontrar mucha sal en un plato de caldo

Jueves 30 Ago 2012

Un chef está preparando una gran olla (30 litros) de caldo. Añade (por accidente) 2 kilos de sal, revuelve bien, saca una cucharadita de caldo, lo prueba, y decide que el caldo está demasiado salado. Hagamos algunos supuestos. Si el chef revuelve bien antes de probar, y si la sal se disuelve bien en el caldo, ¿es razonable suponer que todo el resto del caldo tendrá la misma cantidad de sal, basado sólo en la pequeña cantidad que probó? ¿Podemos realmente asumir que el primer plato de caldo, junto con el segundo, el tercero, y así hasta el último, todos tendrán más o menos la misma cantidad de sal, sin probar todo el caldo para estar seguros? Sí, ¿verdad?

A pesar de que lo anterior es sólo una "intuición", pocas personas objetarían la conclusión. Muchas cosas que nos parecen intuitivas en la vida diaria han sido formalizadas a través de estadística y matemática, precisamente porque a pesar de que la intuición es fundamental, es una herramienta subjetiva que falla en muchos casos. Cuando formalizamos una intuición, ya no es subjetiva, y todos podemos aplicarla y llegar a las mismas conclusiones. Este proceso es una de las piedras angulares de la ciencia.

Lo anterior ha sido formalizado de varias formas. Esencialmente, estamos tomando una "muestra" de caldo, suponiendo que la cantidad de sal en nuestra muestra es "muy similar" al nivel de sal en todo el resto de la olla. En términos estadísticos: el promedio del nivel de sal de nuestra muestra es un buen estimador del promedio de nivel de sal en el resto de la olla. En teoría, si sacamos muchas muestras (100, por ejemplo), calculamos el nivel de sal de cada muestra, y colocamos estos datos en un gráfico, podríamos obtener algo similar a lo de la figura, donde el "nivel de sal" es una cantidad inventada entre 0 y 100, donde 0 es "sin sal" y 100 es "completamente salado". En este gráfico (un histograma), vemos en el eje horizontal los niveles de sal en las muestras, y en el eje vertical la cantidad de veces que observamos ese nivel de sal. Por ejemplo, de las 100 muestras que tomamos, 10 de ellas tuvieron un nivel de sal 45.

En el gráfico podemos ver que pocas veces sacamos muestras con un nivel bajo de sal bajo (inferior a 40), y pocas veces sacamos muestras con un nivel alto de sal (superior a 60). La mayor parte de las veces, el nivel de sal estuvo alrededor del nivel 50. La forma del gráfico se aproxima a una curva con forma de campana, similar a la línea roja. Muchos procesos en la naturaleza son muy similares al descrito arriba, y cuando los graficamos se parecen a la curva roja en el gráfico. Esta curva se llama "curva de campana" o "curva normal", y representa una de las formalizaciones más importantes del conocimiento en probabilidades y estadística.

Una de las aplicaciones de lo anterior para contestar preguntas como la siguiente: ¿cuál es la probabilidad de que saquemos una muestra de caldo con un nivel de sal menor a 40? La forma de responder esta pregunta es observando que en la curva roja de la figura, el número 40 en el eje horizontal se corresponde con sólo una observación en el eje vertical, y hacia la izquierda no vamos a encontrar más observaciones. La probabilidad entonces debe ser realmente baja. ¿Cúan baja?

En una curva normal, todas las observaciones se "agrupan" alrededor del promedio, que en nuestro ejemplo de arriba corresponde al nivel de sal 50, y que en el segundo gráfico se indica con la letra griega mu. Sabemos además que poco más del 34% de las veces, las observaciones estarán entre mu y mu menos sigma, donde sigma es una medida de la "dispersión" o "cuán extendida" es nuestra curva (en nuestro ejemplo, sigma es igual a 5), y que más o menos el 13,6% de las observaciones estarán entre mu-sigma (50-5=45) y mu-2*sigma (50-2*5=40). ¿Qué proporción de las observaciones serán menores a mu-2*sigma?

La respuesta es: menos del 2,5%; dicho de otra forma, la probabilidad de encontrar una muestra de caldo con nivel de sal inferior a 40 es menos del 2,5%.

Los matemáticos han inventado formas muy confiables de estimar ambos números (mu y sigma) a partir de unas pocas muestras. Mientras más muestras, más confianza podemos tener en que nuestro conocimiento de la "población" completa (en nuestro ejemplo, de todo el caldo en la olla).

En un siguiente post, usaremos estas herramientas para entender cifras recientemente publicadas sobre el descenso de la pobreza en Chile.

Imágenes: EraPhernalia's photostream @ Flickr (CC), fuente propia (gráfico generado en R), y Wikipedia