Analisis

Diagrama de caja

Diagrama de caja
En estadística descriptiva, un diagrama de caja o boxplot (también conocido como diagrama de caja y bigotes) es un tipo de gráfico que se utiliza a menudo en el análisis de datos explicativos. Los gráficos de caja muestran visualmente la distribución de los datos numéricos y la asimetría mediante la visualización de los cuartiles (o percentiles) y las medias de los datos. Los gráficos de caja muestran el resumen de cinco números de un conjunto de datos: incluyendo la puntuación mínima, el primer cuartil (inferior), la mediana, el tercer cuartil (superior) y la puntuación máxima.

Diagrama de caja

Puntuación mínima

La puntuación más baja, excluyendo los valores atípicos (mostrados al final del bigote izquierdo).

Cuartil inferior

El 25% de las puntuaciones se sitúan por debajo del valor del cuartil inferior (también conocido como primer cuartil).

Mediana

La mediana marca el punto medio de los datos y se muestra mediante la línea que divide la caja en dos partes (a veces conocida como el segundo cuartil). La mitad de las puntuaciones son mayores o iguales a este valor y la otra mitad son menores.

Cuartil superior

El 75% de las puntuaciones se sitúan por debajo del valor del cuartil superior (también conocido como tercer cuartil). Así, el 25% de los datos están por encima de este valor.

Puntuación máxima

La puntuación más alta, excluyendo los valores atípicos (que se muestran al final del bigote derecho).

Bigotes

Los bigotes superior e inferior representan las puntuaciones fuera del 50% central (es decir, el 25% inferior de las puntuaciones y el 25% superior de las puntuaciones).

Leer  Distribución normal fórmula

El rango intercuartil (o IQR)

Es el gráfico de caja que muestra el 50% medio de las puntuaciones (es decir, el rango entre el percentil 25 y el 75).

¿Por qué son útiles los gráficos de caja?

Los gráficos de caja dividen los datos en secciones que contienen cada una aproximadamente el 25% de los datos de ese conjunto.

Cuartiles de los gráficos de caja

Los gráficos de caja son útiles porque proporcionan un resumen visual de los datos que permite a los investigadores identificar rápidamente los valores medios, la dispersión del conjunto de datos y los signos de asimetría.

El término "gráfico de caja" se refiere a un gráfico de caja de valores atípicos; este gráfico también se denomina gráfico de caja y bigotes o gráfico de caja de Tukey. Consulte la sección "Comparación de gráficos de caja de valores atípicos y cuantiles" más adelante para conocer otro tipo de gráfico de caja.

Estas son las partes básicas de un gráfico de caja:

  • La línea central de la caja muestra la mediana de los datos. La mitad de los datos está por encima de este valor, y la otra mitad está por debajo. Si los datos son simétricos, la mediana estará en el centro de la caja. Si los datos son asimétricos, la mediana estará más cerca de la parte superior o inferior de la caja.
  • La parte inferior y superior de la caja muestran los cuantiles 25 y 75, o percentiles. Estos dos cuantiles también se denominan cuartiles porque cada uno corta una cuarta parte (25%) de los datos. La longitud de la caja es la diferencia entre estos dos percentiles y se denomina rango intercuartil (IQR).
  • Las líneas que se extienden desde la caja se llaman bigotes. Los bigotes representan la variación esperada de los datos.
  • Los bigotes se extienden 1,5 veces el IQR desde la parte superior e inferior de la caja. Si los datos no se extienden hasta el final de los bigotes, entonces los bigotes se extienden hasta los valores mínimos y máximos de los datos. Si hay valores que caen por encima o por debajo del final de los bigotes, se trazan como puntos. Estos puntos suelen denominarse valores atípicos. Un valor atípico es más extremo que la variación esperada. Estos puntos de datos merecen ser revisados para determinar si son valores atípicos o errores; los bigotes no incluirán estos valores atípicos.
Leer  Media ponderada

Vídeos de Diagrama de caja

Contenido

Entradas Relacionadas