TEMA 5 ESTADÍSTICOS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES CUANTITATIVAS
ESTADÍSTICOS UNIVARIABLES: MEDIDAS RESUMEN PARA VARIABLES
CUANTITATIVAS
1. RESUMEN NUMÉRICO DE UNA SERIE
ESTADÍSTICA
Además
de las tablas de frecuencia, podemos resumir una serie de observaciones
mediante “estadísticos”, que es la “Función de los datos observados”
Hay tres grandes tipos de
medidas estadísticas:
◦ Medidas de tendencia central: dan idea
de los valores alrededor de los cuales el resto de los datos tienen tendencia a
agruparse.
◦ Medidas de dispersión o variabilidad: dan información
acerca de la heterogeneidad u homogeneidad de nuestras observaciones. Por
ejemplo: si calculo la media de edad en clase, la media dará alrededor de 20
años puesto que el grupo es homogéneo ya que todos tenemos edades similares.
◦ Medidas de posición: dividen un
conjunto ordenado de datos e grupos con la misma cantidad de individuos, es
decir, ordenamos de menor a mayor.
2. MEDIDAS DE TENDENCIA CENTRAL.
-
Media aritmética o
media (x):
◦ Es el estadístico más básico y más utilizado.
◦ Se calcula para variables cuantitativas.
◦ Se trata del centro geométrico o de gravedad de nuestros datos.
◦ Es la suma de todos los valores de la variable observada entre el
total de observaciones.
◦ La fórmula es:
◦
La suma de las desviaciones respecto de la
media es igual a 0.
◦
La media no se altera por una transformación
lineal de la escala:
§ Si a un conjunto de datos cuya media es X, le sumamos a cada dato una constante K, la media aumenta en K unidades.
§ Si en un conjunto de datos cuya media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
◦
Es muy sensible a las puntuaciones extremas.
◦ Ejemplo: Quiero saber cuál es
el peso medio de seis pacientes sanos. Para ello, sumo el peso de cada uno de
los sujetos y los divido entre el número total de individuos participantes:
-
Mediana:
◦
La mediana es el
valor situado en la posición central de la distribución. De esta manera, un 50%
de los datos es menor y otro 50% es
mayor.
◦
Para poder hallarla
necesitamos que nuestros datos estén ordenados, de forma creciente o
decreciente.
◦
Si la media y la
mediana son iguales, la distribución de la variable es simétrica (distribución
simétrica)
◦
A diferencia de la media aritmética, la
mediana es más robusta.
◦
Cuando la muestra
posee muy pocos datos o existen valores extremos / datos censurados-truncados,
debemos calcular siempre la mediana, ya que es menos sensible a estos valores
extremos.
◦
Si el número de
observaciones es impar, la mediana será justamente el valor que ocupa la
posición (n+1)/2
◦
Por ejemplo: Queremos
hallar la mediana de los días que realizan deporte los jóvenes en una semana.
Para ello, cogemos una muestra de 9 sujetos (jóvenes de 18 años). Los
resultados ordenados fueron: 1, 2, 2, 3, 3, 4, 4, 5, 6. La mediana será:
◦
Si el número de
observaciones es par, el valor de la
mediana corresponde a la media entre los dos
valores centrales.
◦
Por ejemplo:
Queremos hallar la mediana de los días que realizan deporte los jóvenes en una
semana. Para ello, cogemos una muestra de 9 sujetos (jóvenes de 18 años). Los
resultados ordenados fueron: 1, 2, 2, 3, 3, 4, 4, 5, 5, 6. La mediana será:
-
Moda:
◦ Es el estadístico menos usado.
◦
Es el valor con
mayor frecuencia, el que más veces se repite.
◦ Si hay más de una, se dice que la muestra es bimodal (dos modas) o
multimodal (más de dos). Por ejemplo:
▫ Muestra bimodal: tenemos a
4 personas sedentarias, 2 con 18 años y otras 2 con 19 años.
▫
Muestra multimodal: tenemos a 4 personas sedentarias, 2 con 18 años, otra con 19 años y
otra con 22.
◦ Se puede calcular para cualquier tipo de variable (cualitativa y
cuantitativa). Por ejemplo: la moda del sexo: el sexo más frecuente en cáncer
de pulmón es el masculino.
◦ En una distribución unimodal simétrica, los valores de la media
aritmética, mediana y moda coinciden
◦ Si los datos están agrupados, se habla de clase modal. Se corresponde
con el intervalo modal en el que el cociente entre la frecuencia relativa y la
amplitud es mayor (hi/ci).
◦ Por ejemplo: los niveles de glucosa (medidos en mg/ dl) más frecuentes
en los pacientes adultos de un hospital:
3. MEDIDAS DE POSICIÓN.
Las
medidas de posición son aquellas que nos permiten ubicar el valor en una
posición. Ordenando la serie estadística de menor a mayor. Hablamos de
variables numéricas.
3.1.
Cuantil:
Es la medida más general.
Se calculan para variables
cuantitativas y, al igual que la mediana, sólo tiene en cuenta la posición de
los valores en la muestra.
Se define el cuantil de
orden “n” como un valor de la variable por debajo del cual se encuentra una
frecuencia acumulada n. Por lo tanto, por debajo de este valor definido siempre
hay una frecuencia acumuladas de datos
Los cuantiles más usuales
son los cuartiles, los deciles
y los percentiles, según dividan
la muestra ordenada en 4, 10 o 100 partes, respectivamente.
◦
Cuartiles:
§
Dividen
la muestra ordenada en 4 partes.
§
El
primer cuartil (Q1) es el valor por debajo del cual se encuentra el 25% de las
observaciones y por encima el 75%.
§
El
segundo cuartil (Q2) es el valor por debajo del cual se encuentra el 50% de las
observaciones y por encima el otro 50%. Es justo la mitad, por lo que es lo
mismo que la mediana.
§
El
tercer cuartil (Q3) es el valor por debajo del cual se encuentra el 75% de las
observaciones y por encima el 25%.
§
El
cuarto cuartil (Q4), indica el valor más alto que se puede alcanzar en la seria numérica.
◦
Deciles:
§
Los deciles son los
nueve valores que dividen la muestra en 10 partes.
§
Cada parte incluye
el 10% de los valores de la distribución.
§
Se representan por
la letra D.
§
El decil “i”, es
aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100- i) /10% restante son mayores.
§
Por
lo tanto, el primer decil es el valor por debajo del cual se encuentra el 10 %
de las observaciones y por encima el 90%.
§
El valor del D5
corresponde al valor de la mediana
y, por tanto, al del P50 (percentil50).
◦ Percentil:
§
Dividen la muestra
ordenada en 100 partes.
§ El percentil “i” (PI), es aquél valor que, ordenadas las observaciones en forma creciente,
el i % de ellas son menores que él y el (100-i) % restante son mayores.
§
Para buscar la
posición de un percentil en una serie de datos agrupados, buscamos el intervalo
en el que la frecuencia relativa acumulada sea superior al valor del percentil.
§
El valor del
percentil 50 es igual que la mediana.
§ Fórmula
§ Ejemplo: Calcula el percentil 25 del conjunto de estos datos ordenados
de forma creciente.
La ubicación del percentil25 (L25) se encuentra en 12.75,
es decir, entre los valores que se encuentran en la 12 y 13 posición (nº 20 y
21).
Por lo
tanto, el percentil25 de este conjunto de datos es de 20,75. El 25 %
de las observaciones está por debajo de este valor y el 75 % están por encima.
4. MEDIDAS DE DISPERSIÓN.
Se llaman también medidas
de variabilidad.
Estas medidas de
dispersión o variabilidad aportan información sobre la homogeneidad de las
series. Cuanto más concentrados estén los valores de una serie, más homogénea
será.
Estas medidas se calculan
para completar la información limitada que nos proporcionan las medidas de
tendencia central (media, mediana y moda).
Ejemplo: Tengo dos
grupos, formado cada uno por 5 personas con diferentes edades:
◦ SERIE 1: 18,19,20,21,22
años
§ Media = 20 à (18 + 19 + 20 + 21 + 22) / 5 = 100 / 5 = 20
§ Mediana = 20 à es una serie impar y el que ocupa la
posición central es el tercer número = 20
◦
SERIE
2: 9,14,20,27,30
años
§ Media = 20 à (9 + 14 + 20 + 27 + 30) / 5 = 100 / 5 = 20
§ Mediana = 20 à es una serie impar y el que ocupa la
posición central es el tercer número = 20
Las dos series tienen
media = 20 y mediana = 20. Sin embargo, se diferencian en que la primera serie
es más homogénea y que la segunda, ya que tiene los números más concentrados.
Las medidas de
dispersión son el rango
/ recorrido, l la desviación
media, la desviación típica, la varianza, el recorrido
intercuartílico y el coeficiente
de variación.
◦ Rango o recorrido:
§
Es la medida de
dispersión más simple.
§
Consiste en tomar
la puntuación mayor y restarle la puntuación menor.
§
Por lo tanto, es el
recorrido de una variable.
§ La principal limitación del rango es que al tener en cuenta solamente
los valores más alto y más bajo, se ve dramáticamente afectado por los valores
extremos.
§ Ejemplo: Teniendo estos números: 2, 4, 6, 8, 10.
El rango = el valor más alto – el valor más bajo
R = 10 – 2 = 8
◦ Varianza:
§
Es el cuadrado de
la desviación típica. Por lo tanto, es la media de los cuadrados de las
diferencias entre cada valor de la variable y la media aritmética de la distribución.
§
Se mide en unidades
cuadráticas.
§ Cuanto menor sea la varianza mayor homogeneidad y menor dispersión
§
Tiene dos fórmulas,
en función de si se trata de una población o una muestra.
§ Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.
◦
Desviación típica o
estándar:
§ Es la medida de
dispersión más utilizada en estadística descriptiva.
§ Se representa con σ.
§ Dará siempre un valor positivo o cero, en
el caso de que las puntuaciones sean iguales.
§ Si a todos los valores de la variable se les suma un número la
desviación típica no varía.
§ Si todos los valores de la variable se multiplican por un número la
desviación típica queda multiplicada por dicho número.
§ Es muy sensible a las puntuaciones extremas.
§ Cuanta más pequeña sea la desviación típica mayor será la
concentración de datos alrededor de la media.
§ Si no se puede calcular la media, tampoco se podrá calcular la
desviación típica.
§ Nunca puede ser superior a la media.
§ Fórmula:
§ Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.
◦ Coeficiente de variación:
§
También recibe el
nombre de variabilidad relativa, puesto que es una medida de dispersión
relativa de los datos.
§
El CV es un medida
adimensional y nos permite comparar la dispersión o variabilidad de dos o más
grupos.
§
Sin embargo, no
debe usarse cuando la variable presenta valores negativos o donde el valor 0
sea una cantidad fijada arbitrariamente.
§
Se calcula
dividiendo la desviación típica entre la media de la muestra
§
Se expresa en
porcentaje.
§ Fórmula:
|
|
§ Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.
◦ Desviación media:
§
Es la media aritmética de
las distancias de cada observación con respecto a la media de la muestra.
§
No se utiliza mucho.
§
Fórmula
§ Ejemplo: Teniendo estos números de una población: 2, 4, 6, 8, 10.
◦ Recorrido intercuartílico:
§
Es la diferencia
entre el tercer y el primer cuartil = |Q3-Q1|.
§
Diferencia entre el
que ocupa el lugar 75-25.
5. DISTRIBUCIONES NORMALES
◦ En estadística se llama distribución normal, distribución de Gauss o distribución
gaussiana, a una de las distribuciones de probabilidad de variable continua que
con más frecuencia aparece en fenómenos reales.
◦ La gráfica de su función de densidad tiene una forma acampanada y es
simétrica respecto de los valores de posición central (media, mediana y moda,
que coinciden en estas distribuciones).
◦ Esta curva se conoce como la campana de Gauss.
5.1. ASIMETRÍAS Y CURTOSIS
«
ASIMETRÍA:
◦ El coeficiente de asimetría de una variable es el grado de asimetría
de la distribución de sus datos en torno a su media.
◦
Las distribuciones
asimétricas también se llaman sesgadas, y se caracterizan porque el pico de la
misma se encuentra descentrado (no simétrica), apareciendo una cola más larga
que la otra.
◦
Es adimensional y
adopta valores entre -1 y 1.
◦
Cuando la parte baja
está hacia la izquierda es asimetría hacia la izquierda, cuando la parte baja
está a la derecha es asimetría hacia la derecha.
◦
En la asimétrica
hacia la izquierda, aparece primero la media, luego la mediana y luego la
moda (que siempre coincide con el punto más alto ya que es el valor más
frecuente) primero viene la media y luego la mediana.
◦
En la asimetría
hacia la derecha, aparece primero la mediana y luego la media. En la
simétrica coinciden media, mediana y moda.
-
Los resultados
pueden ser los siguientes (interpretación)
◦ Grado de asimetría =
0 à distribución
simétrica. Por lo tanto, existe la misma
concentración de valores a la derecha y a la izquierda de la media
◦ Grado de asimetría > 0 à distribución
asimétrica positiva. Por lo tanto, existe mayor concentración de valores a la
derecha de la media que a su izquierda.
◦ Grado de asimetría < 0 à distribución
asimétrica negativa. Por lo tanto, existe
mayor concentración de valores a la izquierda de la media que a su derecha.
«
CURTOSIS O
APUNTAMIENTO:
◦ El coeficiente de apuntamiento o curtosis de una variable sirve para
medir el grado de concentración de los valores que toma en torno a su media.
◦ Se elige como referencia de una variable con distribución normal, de
modo que para ella el coeficiente de curtosis es 0.
◦ Adopta también valores entre -1 y 1. Es una medida adimensional.
-
Los resultados pueden ser los siguientes (interpretación)
◦ Grado de curtosis =
0 à distribución
mesocúrtica. Presenta un grado de concentración
medio alrededor de los valores centrales de la variable.
◦ Grado de curtosis
> 0 à distribución
leptocúrtica. Presenta un grado de concentración alto
alrededor de los valores centrales de la variable.
◦ Grado de curtosis
< 0 à distribución
platicúrtica. Presenta un grado de concentración bajo
alrededor de los valores centrales de la variable. Tiene una mayor medida de
dispersión.


























Comentarios
Publicar un comentario