Lazy loaded image
Python y Librerías para Ciencias de Datos
Lazy loaded imageMeasures of Center
Palabras 841Tiempo de lectura 3 min
Jan 9, 2025
Jan 10, 2025
type
status
slug
summary
tags
category
icon
password
Las medidas de tendencia central son herramientas estadísticas que se usan para poder describir valores típicos o representativos de un conjunto de datos.
notion image
 
notion image

Media

La media es como repartir el total de un grupo de valores en partes iguales .entre todos. Es el valor promedio de los datos.

Mediana

La mediana es el valor que se encuentra justo en el medio de los datos cuando están ordenados de menor a mayor. Divide el conjunto en dos partes iguales.
  • Impar: 3, 8, 10 La mediana es 8 (está en el medio).
  • Par: 2, 4, 6, 8 La mediana es 5.
 
 
notion image
notion image

Moda

La moda es el valor que más se repite en un conjunto de datos.
 
Tenemos un DataFrame de los hábitos de sueño de diferentes mamíferos.
notion image
Si lo visualizamos en histograma, se vería así:
notion image
 
Un histograma es un gráfico que utilizamos para representar la distribución de un conjunto de datos cuantitativos. Los histogramas son una manera increíble para resumir visualmente nuestros datos, pero con las medidas de tendencia central podríamos tener una idea más profunda.
Cuando analizamos un conjunto de datos, uno de los primeros pasos es resumirlos para extraer información relevante de una manera más sencilla y efectiva. Un buen truco es formular y responder preguntas clave que nos guíen en la exploración.

★ღ ¿Cuánto tiempo suelen dormir los mamíferos? ★ღ

Para encontrar la media simplemente sumariamos todos los valores y lo dividimos por el número total de datos:
notion image
En python, podemos usar la función mean de numpy, donde le pasamos la variable de la que queremos conocer su valor:
notion image
Para encontrar la mediana podemos ordenar todos los datos y tomar el del medio:
notion image
notion image
El valor del medio seria el index 41 y con .iloc lo podríamos obtener:
notion image
En numpy podemos usar np.median para realizar los cálculos por nosotros:
notion image
La moda es el valor que mas se repite, podríamos usar value_counts() para ver el numero de ocurrencias de cada dato:
notion image
La moda de la variable vore nos indicaría la dieta del animal, con lo que sabríamos que los herbívoros duermen mas:
notion image
También podemos encontrar la moda usando la función mode del modulo statistics:
notion image

★ღ Outliers ★ღ

Aquí tenemos todos los insectívoros de nuestro conjunto de datos:
notion image
Nos da un tiempo medio de sueño de 16,5 horas y un tiempo de 18,9 horas para la mediana:
notion image
Ahora podemos pensar en que se ha descubierto un nuevo y muy misterioso insectívoro que nunca duerme:
notion image
Si volvemos a calcular la media y la mediana, obtendremos resultados diferentes:
notion image
Nuestra media disminuyo en mas de 3 horas, mientras que la mediana cambio en menos de una hora:
💡
Esto se debe a que la media es mucho más sensible a los outliers que la mediana.

★ღ ¿Qué medida usar? ★ღ

Podemos observar que la media y la mediana se encuentran bastante cerca:
notion image
notion image
 
Si tuviéramos datos sesgados y no simétricos donde la media y la mediana se encuentran lejos, suele ser mejor utilizar la mediana:
notion image

Skew

El skew (sesgo) es una medida que nos ayuda a describir la asimetría de una distribución de un conjunto de datos, es que tan desbalanceada se encuentra una distribución respecto a su media.
Skew positivo (Sesgo a la derecha):
  • La cola derecha de la distribución es más larga o pesada.
  • La mayoría de los datos se concentran en el lado izquierdo (valores bajos) y hay algunos valores extremos altos que arrastran la cola hacia la derecha.
  • Ejemplo: Los ingresos de una población, donde la mayoría gana poco y solo unos pocos ganan muchísimo.
notion image
 
 
notion image
Skew negativo (Sesgo a la izquierda):
  • La cola izquierda de la distribución es más larga o pesada.
  • La mayoría de los datos se concentran en el lado derecho (valores altos) y hay algunos valores extremos bajos que arrastran la cola hacia la izquierda.
  • Ejemplo: Las notas de un examen fácil, donde la mayoría obtiene calificaciones altas pero algunos pocos tienen notas bajas.
 
Cuando los datos están sesgados, la media y la mediana son diferentes. La media se desplaza en la dirección de su sesgo, por lo que es inferior a la mediana en los datos sesgados hacia la izquierda y mayor que la mediana en los datos sesgados hacia la derecha.
💡
Es mejor utilizar la mediana cuando tenemos datos sesgados, ya que se ve menos afectada por los valores atípicos (outliers).

★ღ Ejercicio ★ღ

Tenemos un DataSet llamado food_consumption que contiene el número de kilogramos de alimentos consumidos por persona por año en cada país y categoría de alimento (consumption), así como su huella de carbono (co2_emissions), medida en kilogramos de dióxido de carbono (CO2).
  • Importar numpy:
    • notion image
  • Subset food_consumption para obtener las filas donde el país sea 'USA':
    • notion image
  • Calcular la media del consumo de alimentos en el DataFrame usa_consumption:
    • notion image
  • Calcular la mediana del consumo de alimentos en usa_consumption:
notion image
上一篇
Grouped Summary Statistics
下一篇
Pivot Tables