Теория:
В окружающем мире множество случайных событий подчиняются удивительной закономерности. Представь, что мы измеряем рост случайного прохожего, вес пачки чипсов на конвейере или отклонение пули от цели при стрельбе. Если провести замеры тысячи раз, мы заметим, что большинство результатов группируются вокруг среднего значения, а сильные отклонения (в плюс или минус) встречаются крайне редко.
Это явление получило название нормального распределения (или распределения Гаусса). Оно возникает там, где на результат влияет множество мелких, независимых факторов, каждый из которых вносит небольшой вклад. Если сложить множество таких независимых случайных величин, их сумма (при определённых условиях) будет распределена нормально.
Пример:
Биология и медицина: рост, вес, размер обуви, артериальное давление у здоровых людей одной возрастной группы.
Производство: допуски и посадки деталей. Станок настроен на выпуск вала диаметром \(10\) мм, но из-за вибрации, износа резца и температуры получаются значения \(9,99\) мм или \(10,01\) мм. Большинство валов будут близки к идеалу.
Психология и педагогика: результаты теста IQ или итоговой контрольной работы в большом классе (если задания подобраны корректно).
Природа: ошибки измерений физических приборов.
Почему это важно? Зная законы нормального распределения, мы можем предсказывать, какая доля продукции окажется бракованной, сколько учеников получат ту или иную оценку или какова вероятность аномальной погоды.
Чтобы описать нормальное распределение математически, используют функцию плотности распределения вероятностей \(f(x)\). График этой функции — это знаменитая колоколообразная кривая (кривая Гаусса).

Рис. \(1\). Пример кривой Гаусса
Формула плотности нормального распределения выглядит так:
Где:
\(x\) — значение случайной величины (например, рост \(175\) см);
\(μ\) (мю) — математическое ожидание (центр распределения). Это то значение, вокруг которого группируются данные. На графике это пик кривой (ось симметрии);
\(σ\) (сигма) — среднеквадратичное отклонение (стандартное отклонение). Параметр, отвечающий за разброс данных. Чем больше \(σ\), тем более пологой и широкой получается кривая (данные разбросаны сильнее). Чем меньше \(σ\), тем выше и острее пик (данные скучены вокруг среднего);
\(e\) — основание натурального логарифма (\(≈2.718\));
\(π\) — число Пи (\(≈3,14\)).
Важно понимать, что сама по себе функция \(f(x)\) не даёт вероятность. Вероятность того, что случайная величина попадёт в интервал от \(a\) до \(b\), равна площади под кривой на этом отрезке.
Ключевые свойства нормального распределения (правило трёх сигм)
Нормальное распределение обладает рядом уникальных свойств, которые делают его незаменимым в статистике.1. Симметричность. Кривая симметрична относительно вертикальной прямой \(x=μ\). Это означает, что вероятность отклонения вправо от центра равна вероятности отклонения влево.
2. Мода, медиана и среднее. В нормальном распределении все три статистические характеристики совпадают и равны \(μ\). Пик кривой (мода) находится ровно в центре (медиана и среднее).
3. Форма зависит от сигмы. Чем меньше разброс (\(σ\)), тем выше и уже график.
4. Асимптотичность. Кривая бесконечно приближается к оси абсцисс (оси \(X\)), но никогда её не касается. Теоретически нормально распределённая величина может принимать любые значения, но вероятность экстремально далёких значений ничтожно мала.
Правило трёх сигм (эмпирическое правило)
Это самое важное практическое следствие из свойств нормального распределения. Оно позволяет быстро оценить разброс данных, зная лишь \(μ\) и \(σ\).
Правило \(68\)–\(95\)–\(99,7\)
Примерно \(68\) всех значений лежат в интервале \((μ−σ;μ+σ)\). (В пределах одной сигмы от среднего.)
Примерно \(95\) всех значений лежат в интервале \((μ−2σ;μ+2σ)\). (В пределах двух сигм.)
Примерно \(99,7\) всех значений лежат в интервале \((μ−3σ;μ+3σ)\). (В пределах трёх сигм.)
Другими словами, вероятность того, что случайная величина отклонится от среднего больше, чем на три сигмы, составляет всего \(0,3\) . Это событие считается практически невозможным (хотя и не исключается полностью). Именно на этом правиле основано понятие выбросов в данных.