TEMA 5 ESTADÍSTICOS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES CUANTITATIVAS



TEMA 5
ESTADÍSTICOS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES CUANTITATIVAS

1.     RESUMEN NUMÉRICO DE UNA SERIE ESTADÍSTICA
Además de las tablas de frecuencia, podemos resumir una serie de observaciones mediante “estadísticos”, que es la “Función de los datos observados”
Hay tres grandes tipos de medidas estadísticas:

   Medidas de tendencia central: dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse.
   Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad u homogeneidad de nuestras observaciones. Por ejemplo: si calculo la media de edad en clase, la media dará alrededor de 20 años puesto que el grupo es homogéneo ya que todos tenemos edades similares.

   Medidas de posición: dividen un conjunto ordenado de datos e grupos con la misma cantidad de individuos, es decir, ordenamos de menor a mayor.


2.     MEDIDAS DE TENDENCIA CENTRAL.

-          Media aritmética o media (x):
   Es el estadístico más básico y más utilizado.

   Se calcula para variables cuantitativas.

   Se trata del centro geométrico o de gravedad de nuestros datos.

   Es la suma de todos los valores de la variable observada entre el total de observaciones.

   La fórmula es:


     La suma de las desviaciones respecto de la media es igual a 0.

      La media no se altera por una transformación lineal de la escala:

§  Si a un conjunto de datos cuya media es X, le sumamos a cada dato una constante K, la media aumenta en K unidades.
§  Si en un conjunto de datos cuya media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.

      Es muy sensible a las puntuaciones extremas.

      Ejemplo: Quiero saber cuál es el peso medio de seis pacientes sanos. Para ello, sumo el peso de cada uno de los sujetos y los divido entre el número total de individuos participantes:



-          Mediana:


   La mediana es el valor situado en la posición central de la distribución. De esta manera, un 50% de  los datos es menor y otro 50% es mayor.

   Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente.

   Si la media y la mediana son iguales, la distribución de la variable es simétrica (distribución simétrica)

    A diferencia de la media aritmética, la mediana es más robusta.

   Cuando la muestra posee muy pocos datos o existen valores extremos / datos censurados-truncados, debemos calcular siempre la mediana, ya que es menos sensible a estos valores extremos.

   Si el número de observaciones es impar, la mediana será justamente el valor que ocupa la posición (n+1)/2

   Por ejemplo: Queremos hallar la mediana de los días que realizan deporte los jóvenes en una semana. Para ello, cogemos una muestra de 9 sujetos (jóvenes de 18 años). Los resultados ordenados fueron: 1, 2, 2, 3, 3, 4, 4, 5, 6. La mediana será:



   Si el número de observaciones es par, el valor de  la mediana corresponde a la media entre los dos  valores centrales.

   Por ejemplo: Queremos hallar la mediana de los días que realizan deporte los jóvenes en una semana. Para ello, cogemos una muestra de 9 sujetos (jóvenes de 18 años). Los resultados ordenados fueron: 1, 2, 2, 3, 3, 4, 4, 5, 5, 6. La mediana será:



-          Moda:


   Es el estadístico menos usado.

   Es el valor con mayor frecuencia, el que más veces se repite.

   Si hay más de una, se dice que la muestra es bimodal (dos modas) o multimodal (más de dos). Por ejemplo:

   Muestra bimodal: tenemos a 4 personas sedentarias, 2 con 18 años y otras 2 con 19 años.

   Muestra multimodal: tenemos a 4 personas sedentarias, 2 con 18 años, otra con 19 años y otra con 22.

   Se puede calcular para cualquier tipo de variable (cualitativa y cuantitativa). Por ejemplo: la moda del sexo: el sexo más frecuente en cáncer de pulmón es el masculino.

   En una distribución unimodal simétrica, los valores de la media aritmética, mediana y moda coinciden

   Si los datos están agrupados, se habla de clase modal. Se corresponde con el intervalo modal en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi/ci).

   Por ejemplo: los niveles de glucosa (medidos en mg/ dl) más frecuentes en los pacientes adultos de un hospital:



3.     MEDIDAS DE POSICIÓN.


Las medidas de posición son aquellas que nos permiten ubicar el valor en una posición. Ordenando la serie estadística de menor a mayor. Hablamos de variables numéricas.
3.1.          Cuantil:
      Es la medida más general.
      Se calculan para variables cuantitativas y, al igual que la mediana, sólo tiene en cuenta la posición de los valores en la muestra.
      Se define el cuantil de orden “n” como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada n. Por lo tanto, por debajo de este valor definido siempre hay una frecuencia acumuladas de datos
      Los cuantiles más usuales son los  cuartiles, los deciles y los percentiles, según  dividan la muestra ordenada en 4, 10 o 100 partes, respectivamente.


   Cuartiles:
§  Dividen la muestra ordenada en 4 partes.
§  El primer cuartil (Q1) es el valor por debajo del cual se encuentra el 25% de las observaciones y por encima el 75%.
§  El segundo cuartil (Q2) es el valor por debajo del cual se encuentra el 50% de las observaciones y por encima el otro 50%. Es justo la mitad, por lo que es lo mismo que la mediana.
§  El tercer cuartil (Q3) es el valor por debajo del cual se encuentra el 75% de las observaciones y por encima el 25%.
§  El cuarto cuartil (Q4), indica el valor más alto que se puede alcanzar en la seria numérica.


   Deciles:

§  Los deciles son los nueve valores que dividen la muestra en 10 partes.

§  Cada parte incluye el 10% de los valores de la distribución.

§  Se representan por la letra D.

§  El decil “i”, es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100- i) /10% restante son mayores.
§  Por lo tanto, el primer decil es el valor por debajo del cual se encuentra el 10 % de las observaciones y por encima el 90%.

§  El valor del D5 corresponde al valor de la  mediana y, por tanto, al del P50 (percentil50).




   Percentil:

§  Dividen la muestra ordenada en 100 partes.

§  El percentil “i” (PI), es aquél valor que, ordenadas las observaciones en forma creciente, el i % de ellas son menores que él y el (100-i) % restante son mayores.

§  Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada sea superior al valor del percentil.

§  El valor del percentil 50 es igual que la mediana.
§ Fórmula



§  Ejemplo: Calcula el percentil 25 del conjunto de estos datos ordenados de forma creciente. 

La ubicación del percentil25  (L25) se encuentra en 12.75, es decir, entre los valores que se encuentran en la 12 y 13 posición (nº 20 y 21).



Por lo tanto, el percentil25 de este conjunto de datos es de 20,75. El 25 % de las observaciones está por debajo de este valor y el 75 % están por encima.

4.     MEDIDAS DE DISPERSIÓN.


Se llaman también medidas de variabilidad.

Estas medidas de dispersión o variabilidad aportan información sobre la homogeneidad de las series. Cuanto más concentrados estén los valores de una serie, más homogénea será.

Estas medidas se calculan para completar la información limitada que nos proporcionan las medidas de tendencia central (media, mediana y moda).

Ejemplo: Tengo dos grupos, formado cada uno por 5 personas con diferentes edades:

   SERIE 1: 18,19,20,21,22 años

§  Media = 20 à (18 + 19 + 20 + 21 + 22) / 5 = 100 / 5 = 20

§  Mediana = 20 à es una serie impar y el que ocupa la posición central es el tercer número = 20

   SERIE 2: 9,14,20,27,30 años

§  Media = 20 à (9 + 14 + 20 + 27 + 30) / 5 = 100 / 5 = 20

§  Mediana = 20 à es una serie impar y el que ocupa la posición central es el tercer número = 20

Las dos series tienen media = 20 y mediana = 20. Sin embargo, se diferencian en que la primera serie es más homogénea y que la segunda, ya que tiene los números más concentrados.

Las medidas de dispersión son el rango / recorrido, l la desviación media, la desviación típica, la varianza, el recorrido intercuartílico y el coeficiente de variación.


   Rango o recorrido:

§  Es la medida de dispersión más simple.

§  Consiste en tomar la puntuación mayor y restarle la puntuación menor.

§  Por lo tanto, es el recorrido de una variable.

§  La principal limitación del rango es que al tener en cuenta solamente los valores más alto y más bajo, se ve dramáticamente afectado por los valores extremos.

§  Ejemplo: Teniendo estos números: 2, 4, 6, 8, 10.
El rango = el valor más alto – el valor más bajo
R = 10 – 2 = 8


   Varianza:
§  Es el cuadrado de la desviación típica. Por lo tanto, es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
§  Se mide en unidades cuadráticas.
§  Cuanto menor sea la varianza mayor homogeneidad y menor dispersión
§  Tiene dos fórmulas, en función de si se trata de una población o una muestra.


§ Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10



   Desviación típica o estándar:

§  Es la medida de dispersión más utilizada en estadística descriptiva.
§  Se representa con σ.
§  Dará siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
§  Si a todos los valores de la variable se les suma un número la desviación típica no varía.

§  Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.

§  Es muy sensible a las puntuaciones extremas.

§  Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

§  Si no se puede calcular la media, tampoco se podrá calcular la desviación típica.

§  Nunca puede ser superior a la media.

§  Fórmula:


§  Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.



   Coeficiente de variación:

§  También recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos.
§  El CV es un medida adimensional y nos permite comparar la dispersión o variabilidad de dos o más grupos.
§  Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.
§  Se calcula dividiendo la desviación típica entre la media de la muestra
§  Se expresa en porcentaje.
§ Fórmula:

§  Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.




   Desviación media:

§  Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra.
§  No se utiliza mucho.

§  Fórmula



§  Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.



   Recorrido intercuartílico:
§  Es la diferencia entre el tercer y el primer cuartil = |Q3-Q1|.
§  Diferencia entre el que ocupa el lugar 75-25.


5.     DISTRIBUCIONES NORMALES


   En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.

   La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de los valores de posición central (media, mediana y moda, que coinciden en estas distribuciones).

   Esta curva se conoce como la campana de Gauss.


5.1. ASIMETRÍAS Y CURTOSIS




«  ASIMETRÍA:

   El coeficiente de asimetría de una variable es el grado de asimetría de la distribución de sus datos en torno a su media.

   Las distribuciones asimétricas también se llaman sesgadas, y se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra.

   Es adimensional y adopta valores  entre -1 y 1.

   Cuando la parte baja está hacia la izquierda es asimetría hacia la izquierda, cuando la parte baja está a la derecha es asimetría hacia la derecha.

   En la asimétrica hacia la izquierda, aparece primero la media, luego la mediana y luego la moda (que siempre coincide con el punto más alto ya que es el valor más frecuente) primero viene la media y luego la mediana.

   En la asimetría hacia la derecha, aparece primero la mediana y luego la media. En la simétrica coinciden media, mediana y moda.


-          Los resultados pueden ser los siguientes (interpretación)


   Grado de asimetría = 0 à distribución simétrica. Por lo tanto, existe la misma concentración de valores a la derecha y a la izquierda de la media



   Grado de asimetría > 0 à distribución asimétrica positiva. Por lo tanto,  existe mayor concentración de valores a la derecha de la media que a su izquierda.


   Grado de asimetría < 0 à distribución asimétrica negativa. Por lo tanto, existe mayor concentración de valores a la izquierda de la media que a su derecha.




«  CURTOSIS O APUNTAMIENTO:

   El coeficiente de apuntamiento o curtosis de una variable sirve para medir el grado de concentración de los valores que toma en torno a su media.

   Se elige como referencia de una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0.

   Adopta también valores entre -1 y 1. Es una medida adimensional.

 

-          Los resultados pueden ser los siguientes (interpretación)

   Grado de curtosis = 0 à distribución mesocúrtica. Presenta un grado de concentración medio alrededor de los valores centrales de la variable.




   Grado de curtosis > 0 à distribución leptocúrtica. Presenta un grado de concentración alto alrededor de los valores centrales de la variable.



   Grado de curtosis < 0 à distribución platicúrtica. Presenta un grado de concentración bajo alrededor de los valores centrales de la variable. Tiene una mayor medida de dispersión.


















Comentarios

Entradas populares de este blog

PRESENTACIÓN

TEMA 10: ESTIMACIÓN Y/O SIGNIFICACIÓN ESTADÍSTICA

TEMA 9: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. INTERVALOS DE CONFIANZA Y CONTRASTE DE HIPÓTESIS