| Manejando la información acerca de la dispersión | |
Es conocido que la media es una medida de centralización y que la varianza es una medida de dispersión. Una varianza pequeña nos indica que la variable no se desvía "demasiado" de su media , que es "poco" probable que haya valores alejados de la media, o dicho de otra manera que es "muy" probable que los valores se encuentren alrededor de la media. La desigualdad de Chebychev nos va a dar una cota de esa probabilidad de lejanía o de cercanía.Desigualdad de Chebychev La desigualdad de Chebychev afirma que para cualquier variable, el intervalo: (media-k*dt, media+k*dt), contiene al menos un (1-1/k2)% de valores de la distribución, siendo "media" la media poblacional, dt la desviación típica poblacional (la raíz cuadrada de la varianza poblacional) y k un número cualquiera. Es decir, la probabilidad de que la variable no se desvíe de la media más allá de k veces la desviación típica es mayor que (1-1/k2). A veces también se dice que la cantidad de masa situada dentro de dicho intervalo es como poco de (1-1/k2). Recíprocamente, para cualquier variable, fuera del intervalo anterior se encuentra como mucho un (1/k2)% de valores de la distribución. Es decir, la probabilidad de que la variable se desvíe de la media más allá de k veces la desviación típica es menor que (1/k2). Así para los siguiente valores de k se tiene que: Para k=1, el intervalo (media-dt, media+kdt), contiene al menos un 0% de valores de la distribución (aquí la desigualdad de Chebychev dice algo que es completamente evidente) Para k=2, en el intervalo (media-2*dt, media+2*dt), hay al menos el 75% de valores de la distribución Para k=3, en el intervalo (media-3*dt, media+3*dt), hay al menos el 89% de valores de la distribución Para k=4, en el intervalo (media-4*dt, media+4*dt), hay al menos el 94% de valores de la distribución Distribuciones Simétricas con una única ModaPara distribuciones simétricas con una única moda, la desigualdad de Chebychev se puede mejorar de la siguiente forma: para cualquier variable, el intervalo: (media-k*dt, media+k*dt), contiene al menos un (1-(4/9)/k2)% de valores de la distribución. Así para los siguiente valores de k se tiene que: Para k=1, en el intervalo (media-dt, media+kdt), hay al menos un 56% de valores de la distribución Para k=2, en el intervalo (media-2*dt, media+2*dt), hay al menos el 89% de valores de la distribución Para k=3, en el intervalo (media-3*dt, media+3*dt), hay al menos el 95% de valores de la distribución Para k=4, en el intervalo (media-4*dt, media+4*dt), hay al menos el 97% de valores de la distribución Distribuciones Normales Para distribuciones Normales, las propiedades de dichas distribuciones (sin necesidad de recurrir a Chebychev) garantizan que en el intervalo (media-k*dt, media+k*dt) hay: Para k=1, el 68,27% de valores de la distribución Para k=2, el 95,45% de valores de la distribución Para k=3, el 99,73% de valores de la distribución Para k=4, el 99,99% de valores de la distribución ConclusionesLa desigualdad de Chebychev proporciona una interpretación de la varianza (y de su raíz cuadrada, la desviación típica) en términos de la probabilidad de concentración de la variable alrededor de su media. Esta desigualdad es válida siempre ya que no se hace ninguna hipótesis de partida acerca de la variable. Dicha desigualdad se ve mejorada si se supone hipótesis adicionales de simetría o de normalidad. |