15 Distribución normal en R

15.1 Introducción

La distribución normal, también conocida como distribución gaussiana o campana de Gauss, es una de las distribuciones de probabilidad continua más importantes en estadística. Su relevancia radica en que muchos fenómenos naturales y sociales tienden a seguir esta distribución, y además, sirve como base para numerosas pruebas y modelos estadísticos.

Según López y González (2018), la distribución normal es fundamental en bioestadística debido a que muchas variables biométricas tienden a distribuirse normalmente, la distribución de las medias muestrales de una variable cualquiera tiende a ser normal (Teorema del Límite Central), y muchas pruebas estadísticas asumen la normalidad de los datos.

15.2 Características y definición

La distribución normal se caracteriza por ser simétrica y tener forma de campana. Está completamente definida por dos parámetros: la media (\(\mu\)) y la desviación estándar (\(\sigma\)). La función de densidad de probabilidad de la distribución normal se expresa como:

\[\Large f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2}, \quad -\infty < x < \infty \]

donde:

\(x\) es la variable aleatoria continua
\(\mu\) es la media de la distribución
\(\sigma\) es la desviación estándar de la distribución
\(e\) es la base del logaritmo natural (aproximadamente 2.71828)
\(\pi\) es la constante pi (aproximadamente 3.14159)

La notación utilizada es: \(X \sim N(\mu, \sigma^2)\), donde \(\mu\) es la media y \(\sigma^2\) es la varianza.

15.2.1 Propiedades de la distribución normal

López y González (2018) destacan las siguientes propiedades de la distribución normal:

Existe una familia de distribuciones normales, cada una definida por su media (\(\mu\)) y desviación estándar (\(\sigma\)).
El punto más alto de la curva normal es la media, que coincide con la mediana y la moda.
La distribución es simétrica alrededor de la media.
Los extremos de la distribución se extienden indefinidamente sin tocar el eje horizontal.
La desviación estándar (\(\sigma\)) determina el ancho de la curva; valores mayores indican mayor dispersión.
El área total bajo la curva es igual a 1.
Las probabilidades se determinan mediante áreas bajo la curva.
La regla empírica establece que aproximadamente el 68% de las observaciones se encuentran dentro de una desviación estándar de la media (\(\mu \pm \sigma\)), el 95% dentro de dos desviaciones estándar (\(\mu \pm 2\sigma\)), y el 99.7% dentro de tres desviaciones estándar (\(\mu \pm 3\sigma\)).

15.3 Cálculo de probabilidades normales en R

El software R proporciona funciones para calcular probabilidades asociadas a la distribución normal.

15.3.1 Función para calcular la función de densidad de probabilidad

Para calcular la función de densidad de probabilidad en un punto \(x\), se utiliza la función:

\[\LARGE \texttt{dnorm(x, mean, sd)} \]

Argumentos en orden:

\(\texttt{x}\): valor de la variable aleatoria en el que se evalúa la función de densidad
\(\texttt{mean}\): media de la distribución (\(\mu\))
\(\texttt{sd}\): desviación estándar de la distribución (\(\sigma\))

15.3.2 Función para calcular probabilidades acumuladas

Para calcular la probabilidad acumulada \(P(X \leq x)\), se utiliza la función:

\[\LARGE \texttt{pnorm(q, mean, sd, lower.tail)} \]

Argumentos en orden:

\(\texttt{q}\): valor hasta el cual se desea calcular la probabilidad acumulada
\(\texttt{mean}\): media de la distribución (\(\mu\))
\(\texttt{sd}\): desviación estándar de la distribución (\(\sigma\))
\(\texttt{lower.tail}\): argumento lógico que indica si se calcula \(P(X \leq x)\) (\(\texttt{TRUE}, por defecto\)) o \(P(X > x)\) (\(\texttt{FALSE}\))

15.3.3 Ejemplo práctico: Estatura de estudiantes

Supóngase que la estatura de los estudiantes de una universidad se distribuye normalmente con una media de 170 cm y una desviación estándar de 10 cm. Se desea calcular las siguientes probabilidades:

15.3.3.1 Caso 1: P(X ≤ 180) - Probabilidad de que un estudiante mida 180 cm o menos

pnorm(180, 170, 10)

[1] 0.8413447

15.3.3.2 Caso 2: P(X > 160) - Probabilidad de que un estudiante mida más de 160 cm

pnorm(160, 170, 10, lower.tail = FALSE)

[1] 0.8413447

15.3.3.3 Caso 3: P(165 ≤ X ≤ 175) - Probabilidad de que un estudiante mida entre 165 cm y 175 cm

Para calcular esta probabilidad, se resta la probabilidad acumulada hasta 165 cm de la probabilidad acumulada hasta 175 cm:

pnorm(175, 170, 10) - pnorm(165, 170, 10)

[1] 0.3829249

15.4 Estandarización de la variable normal

15.4.1 Ejemplo práctico: Duración de la temporada de heladas en Guatemala

El Instituto Nacional de Sismología, Vulcanología, Meteorología e Hidrología (INSIVUMEH) de Guatemala ha determinado que la duración de la temporada de heladas sigue una distribución normal. Se conoce la siguiente información:

La duración promedio de la temporada de heladas es de 120 días (\(\mu = 120\))
La probabilidad de que la temporada dure más de 133 días es del 25.78% (\(P(X > 133) = 0.2578\))

Objetivo: Determinar la desviación estándar (\(\sigma\)) de la distribución normal.

15.4.1.1 Paso 1: Estandarización de la variable

Para resolver este problema, se debe estandarizar la variable \(X\) (duración de la temporada de heladas) utilizando la transformación a \(Z\):

\[\huge Z = \frac{X - \mu}{\sigma} \]

donde:

\(X = 133\) días
\(\mu = 120\) días
\(\sigma\) = desviación estándar (valor a determinar)

Sustituyendo los valores conocidos:

\[\LARGE Z = \frac{133 - 120}{\sigma} = \frac{13}{\sigma} \]

15.4.1.2 Paso 2: Cálculo de la probabilidad acumulada

Dado que P(X > 133) = 0.2578, se puede determinar la probabilidad acumulada hasta 133:

\[\Large P(X \leq 133) = 1 - P(X > 133) = 1 - 0.2578 = 0.7422 \]

Por lo tanto:

\[\Large P\left(Z \leq \frac{13}{\sigma}\right) = 0.7422 )=0.7422\]

15.4.1.3 Paso 3: Encontrar el valor Z correspondiente

Se debe encontrar el valor \(z\) tal que P(\(Z \leq z\)) = 0.7422 en la distribución normal estándar.

En R, se utiliza la función:

\[\huge \texttt{qnorm(p, mean, sd)} \]

Argumentos:

\(\texttt{p}\): probabilidad acumulada deseada
\(\texttt{mean}\): media de la distribución (0 para la normal estándar)
\(\texttt{sd}\): desviación estándar de la distribución (1 para la normal estándar)

qnorm(0.7422, mean = 0, sd = 1)

[1] 0.6501428

15.4.1.4 Paso 4: Despejar la desviación estándar

Igualando la expresión estandarizada con el valor \(z\) encontrado:

\[\huge \frac{13}{\sigma} = 0.65 \]

Despejando:

\[\huge \sigma = \frac{13}{0.65} = 20 \]

15.4.1.5 Verificación en R

Para verificar el resultado, se puede calcular la probabilidad \(P(X > 133)\) con los parámetros encontrados:

pnorm(133, mean = 120, sd = 20, lower.tail = FALSE)

[1] 0.2578461

Este resultado confirma que la desviación estándar calculada es correcta.

15.4.1.6 Interpretación

La desviación estándar de la duración de la temporada de heladas en Guatemala es de 20 días (\(\sigma = 20\)). Esto significa que la duración de la temporada de heladas varía alrededor de la media (120 días) con una dispersión de 20 días.

Con esta información, se puede establecer que la duración de la temporada de heladas en Guatemala sigue una distribución \(N(120, 20^2)\), lo que permite realizar predicciones y análisis probabilísticos para la planificación agrícola y la gestión de riesgos climáticos.

15.5 Interpretación y aplicaciones en agronomía

La distribución normal es ampliamente utilizada en agronomía para modelar variables continuas como la altura de las plantas, el rendimiento de los cultivos, el peso de los frutos, y las temperaturas. Permite realizar inferencias estadísticas, como la estimación de intervalos de confianza y la realización de pruebas de hipótesis, que son fundamentales para la investigación y la toma de decisiones en el sector agropecuario.