type
status
slug
summary
tags
category
icon
password
Tal y como su nombre lo dice, las summary statistics (estadísticas de resumen), son herramientas que nos ayudan a resumir un conjunto de datos.

ღ★ღ .mean() ღ★ღ
Una de las estadísticas de resumen que más se usan, es la media. La media nos dice dónde está el centro de sus datos.
Podemos calcular la media de una columna seleccionando la columna entre los corchetes y usando .mean()

ღ★ღ .min() .max() ღ★ღ
Los usamos para encontrar el valor mínimo y el valor máximo de un conjunto de datos. Por ejemplo, podemos encontrar la fecha de nacimiento del perrito mas viejo usando min:

Y usamos max para encontrar la fecha de nacimiento del perrito mas joven:

ღ★ღ .agg() ღ★ღ
Nos permite calcular estadísticas mucho más personalizadas. Por ejemplo, si quisiéramos calcular el percentil 30 de una columna de nuestro data frame, crearíamos una función:

Ahora que tenemos esta función para calcular el percentil 30, podemos crear un subconjunto y llamar a .agg(pct30):

También se puede usar en más de una columna:

Podemos incluso realizar varias estadísticas al tiempo

✰ღ★ღ Estadísticas Acumulativas ღ★ღ✰
Pandas tiene métodos que nos ayudan a calcular estadísticas acumulativas. Normalmente veríamos los datos de esta forma:

Para tener las sumas acumulativas, llamamos a .cumsum() de una columna y nos retornará no solo un número, sino un número para cada fila de nuestro DataFrame:

- Autor:ByIris
- URL:http://145.223.74.189:3000//article/summary-statistics-pandas
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!