Pruebas de la bondad de ajuste.
- groodch14
- 6 abr 2016
- 6 Min. de lectura
PRUEBAS DE LA BONDAD DE AJUSTE
Estas pruebas permiten verificar si una distribución de probabilidades supuesta es congruente con un conjunto de datos dado. Para esto se utilizan pruebas de bondad de ajuste tales como la prueba JI–cuadrado.
Sea X1, . . . , Xn los resultados obtenidos a partir de una muestra aleatoria de la cual se ha asumido que su distribución de probabilidades esta determinada por la función de probabilidad ´ Po(X) o la función de densidad de probabilidad ´ Fo(X), se plantea la hipótesis nula ´ Ho : F(X) = Fo(X), especificada de manera completa con respecto a todos los parámetros.
En la construcción del modelo de simulación es importante decidir si un conjunto de datos se ajusta apropiadamente a una distribución específica de probabilidad. Al probar la bondad del ajuste de un conjunto de datos, se comparan las frecuencias observadas FO realmente en cada categoría o intervalo de clase con las frecuencias esperadas teóricamente FE.
PRUEBA JI-CUADRADO
Esta prueba es aplicable para variables aleatorias discretas o continuas.
Sea una muestra aleatoria de tamaño n tomada de una población con una distribución especificada f0(x) que es de interés verificar.
Suponer que las observaciones de la muestra están agrupadas en k clases, siendo oi la cantidad de observaciones en cada clase i = 1, 2, ..., k.
Con el modelo especificado f0(x) se puede calcular la probabilidad pi que un dato cualquiera pertenezca a una clase i.
Con este valor de probabilidad se puede encontrar la frecuencia esperada ei para la clase i, es decir, la cantidad de datos que según el modelo especificado deberían estar incluidos en la clase i:
ei = pi n, i = 1, 2, ..., k
Tenemos entonces dos valores de frecuencia para cada clase i
oi: frecuencia observada (corresponde a los datos de la muestra)
ei: frecuencia esperada (corresponde al modelo propuesto)
La teoría estadística demuestra que la siguiente variable es apropiada para realizar una prueba de bondad de ajuste:

Para n grande este estadístico de prueba tiene una distribución X2 aproximada con V grados de libertad dados por V = (k –1) – (número de parámetros estimados) así, si se estiman dos parámetros como la media y la varianza, la medida estadística tendrá (k – 3) grados de libertad.
Dado un nivel de significancia α se define un valor crítico X2 α para el rechazo de la hipótesis propuesta Ho: f(x) = f0(x).
Si las frecuencias observadas no difieren significativamente de las frecuencias esperadas calculadas con el modelo propuesto, entonces el valor de estadístico de prueba X2 será cercano a cero, pero si estas diferencias son significativas, entonces el valor del estadístico X2 estará en la región de rechazo de Ho.

RECHAZO H0 ↔ X2 > X2a
Ejemplo:
Se ha tomado una muestra aleatoria de 40 baterías y se ha registrado su duración en años. Estos resultados se los ha agrupado en 7 clases en el siguiente cuadro:

Verificar con 5% de significancia que la duración en años de las baterías producidas por este fabricante tiene duración distribuida normalmente con media 3.5 y desviación estándar 0.7
Sea X: duración en años (variable aleatoria continúa)
1) Ho: X - N(3.5,0.7) (distribución normal, µ=3.5, σ=0.7)
2) Ha: no H0
3) α = 0.05



Es necesario que se cumpla la condición ∀i, ei ≥ 5 por lo que se deben agrupar clases adyacentes. Como resultado se tienen cuatro clases k=4

Ahora se puede definir la región de rechazo de Ho.
Observemos que en este ejemplo la media y la desviación estándar de la distribución normal no se estimaron, sino que están propuestas, de donde r = 0

5) Cálculo del estadístico de prueba

6) Decisión
Como 3.05 no es mayor a 7.815, se dice que no hay evidencia suficiente para rechazar el modelo propuesto para la población.
PRUEBA DE BONDAD DE AJUSTE KOLMOGOROV - SMIRNOV
Desarrollada en la década de los treinta del siglo XX , esta prueba permite al igual que la prueba Chi-cuadrado determinar la distribución de probabilidad de una serie de datos. Una limitante de la prueba de Kolmogorov-Smimov escriba en que solamente se puede aplicar al análisis de variables continuas.
El procedimiento general de la prueba es:
1.-Obtener al menos 30 datos de la variable aleatoria a analizar.
2.-Calcular la media y la varianza de los datos.
3.-Crear un histograma de m= raiz(n) intervalos, y obtener la frecuencia observada en cada intervalo Oi.
4.-Calcular la probabilidad observada en cada intervalo POi = Oi/ni, esto es, dividir la frecuencia observada Oi entre un número total de datos, n.
5.-Acumular las probabilidades POi, para obtener la probabilidad observada hasta el i-esimo intervalo, POAi.
6.-Establecer explícitamente la hipótesis nula, proponiendo una distribución de probabilidad que se ajuste a la forma del histograma.
7.-Calcular la probabilidad esperada acumulada para cada intervalo,PEAi, a partir de la función de probabilidad propuesta .
8.-Calcular el estadístico de prueba:
C=max[PEAi-POAi] i= 1,2,3……m
9.- Definir el nivel de significancia de la prueba a, y determinar el valor crítico de la prueba , D an.
10.-Comparar el estadístico de prueba con el valor crítico. Si el estadístico de prueba es menor que el valor critico no se puede rechazar la hipótesis nula.
Otra prueba para la bondad de ajuste se apoya en la distribución de Kolmogorov – Smirnov la que al ser desarrollada para variables continuas la hace más poderosa por ejemplo, en el caso de los números aleatorios, que la Ji cuadrada. Por esta razón, en esta sección la presentamos para un caso distinto al de la distribución continua.
Definamos la siguiente función de distribución empírica. Supóngase que Y es una variable aleatoria continua que tiene una función de distribución F(y). Una muestra aleatoria de n realizaciones de Y produce las observaciones y1, y2, ..., yn. Reordenemos esos valores observados de menor a mayor, y las yi ordenadas se representan mediante y(1) y(2) ..., y(n). Es decir, si y1 = 7, y2 = 9 y y3 = 3, entonces y(1) = 3, y(2) = 7 y y(3) = 9. Ahora bien, la función de distribución acumulada empírica esta definida por:
F n(y) = fracción de la muestra menor o igual a y
Supóngase que se toma una variable aleatoria continua Y, bajo la hipótesis nula, que tiene una función de distribución representada por F (y). La hipótesis alterna es que F (y) no es la función verdadera de distribución de es la función verdadera de distribución de Y. Después de observar una muestra aleatoria de n valores de Y, F (y) debe estar “cerca“ de F n(y)siempre y cuando sea verdadera la hipótesis nula. Por lo tanto, la medida estadística debe apreciar la cercanía de F(y) a Fn(y) en todo el intervalo de valores de y. La medida estadística D de K-S se basa en la distancia máxima entre F(y) y Fn(y), es decir,
D = máx ¦ F(y) - Fn(y) ¦
Se rechaza la hipótesis nula si D es “demasiado grande”.
Como F(y) y Fn(y) no son decrecientes y Fn(y) es constante entre observaciones de muestra, la desviación máxima entre F(y) y Fn(y), se presentará ya sea en uno de los puntos de observación y1 , ... yn , o inmediatamente a la izquierda de uno de ellos. Para determinar el valor observado de D, se necesita entonces comprobar tan sólo

Ya que D = máx (D+ , D-)
Si en H0 se supone la forma de F (y), pero se deja sin especificar algunos de los parámetros, entonces éstos se deben estimar a parir de los datos de la muestra antes de poder llevar a cabo la prueba.
Stephens (1974) dio valores de corte de áreas superiores de 0.15, 0.10, 0.05, 0.025 y 0.01 para una forma modificada de la tabla K – S para D (presentada en el apéndice de este libro), los cuales se muestran en la siguiente tabla para tres casos. Estos casos son para la hipótesis nula de una F(y) completamente especificada, una F(y) normal con promedio y variancia desconocidos, y una F(y) exponencial con promedio desconocido.
TABLA DE KOLMOGOROV – SMIRNOV DE STEPHENS. Puntos porcentuales del extremo superior para D modificada

EJEMPLO
Considérese que las diez observaciones siguientes son una muestra aleatoria de una distribución continua. Probar la hipótesis de que esos datos provienen de una distribución exponencial con promedio 2, en el nivel de significación 0.05.
0.406, 2.343, 0.538, 5.088, 5.587, 2.563, 0.023, 3.334, 3.491, 1.267.
Solución. Se ordenan las diez observaciones ascendentemente y entonces se calcula, para cada y(i), el valor de F(yi), donde H0 establece que F (y) es exponencial con teta=2. por tanto, F(yi) = 1 - e-yi/2

D+ es el valor máximo en la columna 6 y D- el máximo en la columna 7. Entonces D + = 0.0886 y D – = 0.2901, lo cual da D = 0.2901. Para determinar el valor crítico a partir de la tabla K - S, se necesita calcular

En el nivel de significación alfa = 0.05, el valor de D calculado es menor que el valor del valor de D modificado. Por lo tanto, no se rechaza la hipótesis nula.
CONCLUSIONES
Para mi conclusión es que las pruebas de bondad de ajuste ji-cuadrada son muy útiles ya que te pueden ayudar a comprobar la independencia de de dos variables entre si, la cual se lleva a cabo mediante la presentación de los datos en tablas.
Para la que se me hizo un poco mas interesante es la prueba de bondad de ajuste Kolmogorov-Smirnov ya que esta es recomendable para distribuciones continuas, muestras de cualquier tamaño y es bastante potente con muestras grandes. No requiere de hacer uso de datos agrupados.
El nivel de medición de la variable y su distribución son elementos que intervienen en la selección
Si la variable es continua con distribución normal, se podrán aplicar técnicas paramétricas, Si es una variable discreta o continua no normal, solo son aplicables técnicas no paramétricas y por lo cual nos podría arrojar resultados sin validez.

Comments