Yo infiero, tu infieres

October 23, 2011
By

This post was kindly contributed by Farmacovigilancia nerd2!=nerd - go there to comment and to read the full post.


Luego de repasar algunos rudimentos de distribuciones estadísticas, esconveniente ver algo de inferencia estadística. Es la parte de la estadísticaque permite deducir propiedades de una población, a partir de una muestra de lamisma.

Acá hay algunos conceptos que habitualmente conducen aerror. Básicamente, como decíamos antes, cuando estudiamos una muestra una delas cosas que hay que realizar es una serie de pruebas para establecer si lamisma proviene de una población donde la variable tiene una distribuciónnormal. Esto implica que existe una población teórica (e imposible deaprehender) desde la cual se toma la muestra. En esta muestra verificaremospropiedades similares a la de la población, pero no idénticas. Por ejemplo, sicalculamos la media en la muestra de glucemias con la que trabajamosanteriormente veremos que:

> mean(glucemias)
[1] 90.03842

Su promedio no es exactamente 90, que es lo esperadoconociendo la media real, pero está muy cerca. Esto nos puede llevar a una pregunta.Si tomamos muchas muestras de la misma población y calculamos sus promedios,¿cuánto se alejarán éstos de la media poblacional? Es aquí que surge la ideaconceptualmente diferente de la que hablaba antes. Existe una distribución quese puede ajustar a los valores de nuestra muestra para describirla, pero lo quenos interesa en realidad, es una distribución teórica que muestra cómo sedistribuirían los promedios si tomáramos muchas muestras respecto de la mediapoblacional. Inicialmente, es fácil imaginar que la mayoría de los promediosestarán cerca de la media y si bien obtendremos por azar valores alejados,éstos se irán haciendo menos y menos probables a medida que nos alejamos deella. Esto es muy importante, existe una distribución teórica de mediasmuestrales alrededor de la media poblacional. Esta distribución tiene a su vezuna media (la media poblacional o “verdadera” media) y un desvío estándar, queen general se denotan usando las letras griegas µ y σ para diferenciarlas yresaltar que en general son valores teóricos desconocidos y a estimar.

Éste es el razonamiento básico subyacente en lo que solemosver como Intervalo de Confianza (ojo que su acrónimo en español “IC” puedeconfundirse con el de Information Component que nos interesa, pero no es lomismo).
Si tuviéramos información acerca de la media poblacional ysu desvío estándar, podríamos calcular que tan probable es obtener un promediodeterminado para una muestra tomada. Como no lo tenemos, lo inferimos. Quierodecir, vamos al revés. En lugar de ir de la información de la población paraevaluar la muestra, vamos de la información que hay en la muestra para evaluarcómo será la población.

Si tuviéramos los datos de la población, calcularíamos lamedia y el desvío estándar de ella, mediríamos a qué distancia en términos desd se encuentra la media de nuestra muestra y buscaríamos la probabilidad deencontrar un valor así de alejado de la media poblacional. Como no conocemos lamedia y el sd poblacional, usamos la media muestral para estimar la poblacionaly para estimar el sd poblacional hacemos una corrección del sd muestral. Estacorrección hará que el sd sea más estrecho, como sería de esperar si tuviéramostoda la población y obviamente, está relacionada al tamaño de la muestra (n).
 Este nuevo valor del sd es llamado Error Standard (se) y setrata del valor que usamos para estimar el sd poblacional. Entonces con estopodemos calcular un intervalo de confianza para una muestra. SI luego delanálisis preliminar concluimos que nuestra muestra proviene de una poblacióncon distribución de valores normal, podemos usar aproximadamente 2 erroresestándar (sabemos por lo visto en el post anterior que el valor exacto es de 1.959964 sd) hacia laderecha y 2 errores estándar hacia la izquierda del promedio para establecer unintervalo de confianza de 95%. Entre las características que podemos usar paraverificar si se cumple el principio de normalidad, uno muy importante es eltamaño de la muestra. Cuanto mayor el tamaño muestral, menos dependemos delresto de los supuestos.

Este intervalo de confianza tiene el siguiente significado:si tomáramos muchas muestras con el mismo método que tomamos la primera, el 95%de las medias se encontraría en ese rango y además, lo que es más importante,en ese rango se encuentra la media poblacional con un 95% de probabilidad.
Veamos esto con las glucemias. Usaremos la función “mean” y“length” ya vistas, la función “sd” que calcula el desvío estándar y la función“sqrt” que nos da la raíz cuadrada.

> nG=length(glucemias)
> meanG=mean(glucemias)
> sdG=sd(glucemias)
> seG=sdG/sqrt(nG)
> sdG
[1] 9.519673
> seG
[1] 0.9519673

Vemos que el sd es de 9.52, cercano a 10 que es el valorpoblacional, pero el se es mucho menor, cercano a 0.92. Para obtener el intervalode confianza acerca de nuestra media hacemos lo siguiente:

> LimInf=meanG-1.959964*seG
> LimSup=meanG+1.959964*seG
> LimInf
[1] 88.1726
> LimSup
[1] 91.90424

El límite inferior es de 88.17 y el superior de 91.90. Comodijimos antes, esto quiere decir entre otras cosas que la media poblacional“real” se encuentra en ese rango con un 95% de probabilidad. Sabemos que estoes lo que ocurre en la realidad, pues la media poblacional es de 90 mg/dl,según lo predeterminado por la simulación con la que generamos los datosmuestrales.
También, nos dice otra cosa muy importante: Si en otromomento tomamos otra muestra y al calcular el promedio encontramos que seencuentra fuera de ese rango, podemos tener la “confianza” de que es improbableque esos valores provengan de la misma población. Mejor dicho, la probabilidadde que provengan de la misma población es inferior al 5%.

Bueno, hasta aquí los conceptos de estadística “clásica” queson importantes para entender lo que viene de generación de señales con elpaquete PhViD.
No obstante, para entenderlo más acabadamente hay que tenernociones de inferencia Bayesiana.

Tags: ,

Comments are closed.