Теория:
На изображении представлены два набора чисел в виде схемы. Среднее значение у них почти одинаковое. Но распределение чисел совсем другое.
\(1\) набор:

\(2\) набор:

Рис. \(1\). Два числовых набора на координатной прямой
У второго набора чисел большинство значений сосредоточены ближе к центру, в то время как у первого числа «тянутся» к краям. Только две точки находятся где-то посередине.
Различие между этими двумя наборами заключается в степени рассеивания данных. Когда данные сильно рассеяны, многие значения существенно отличаются от среднего. Напротив, при низкой степени рассеивания большинство значений находятся близко друг к другу и к среднему. В таких случаях изменчивость минимальна.
Рассеивание — это характеристика числовых наборов, требующая математического описания.
Пример:
в школе занятия начинаются в \(8\):\(30\). Двое детей живут в одном доме и обучаются в одной школе. Один из них пешком идёт в школу, в то время как другой добирается на автобусе. В различные дни проводилась выборочная проверка времени прибытия каждого из детей в школу.
Первый ребёнок | \(8\):\(14\) | \(8\):\(15\) | \(8\):\(16\) | \(8\):\(15\) | \(8\):\(14\) |
Второй ребёнок | \(8\):\(19\) | \(8\):\(27\) | \(8\):\(22\) | \(8\):\(31\) | \(8\):\(17\) |
Во втором наборе данных отчётливо видно, что происходит более сильное рассеивание информации. Почему это так? Время, затрачиваемое на автобусную поездку, формируется из различных случайных факторов. Среди них есть два переменных: время ожидания на автобусной остановке и время, которое требуется автобусу, чтобы доставить ребёнка в школу. Если автобус задерживается или стоит в пробке, ребёнок может опоздать в учебное заведение.
Первый ребёнок тратит на дорогу время, зависящее только от скорости его передвижения, которая остаётся примерно постоянной в течение всех дней: она значительно снижается только во время гололёда или неблагоприятной погоды.
Для оценки рассеивания данных можно применять различные методы. Например, одним из таких методов является использование разброса. Однако следует помнить, что разброс не всегда является оптимальным критерием для измерения рассеивания данных. Это связано с тем, что разброс учитывает только два крайних значения в наборе данных, что может привести к искажению результата, если эти значения являются выбросами.
Обрати внимание!
Что же делать в такой ситуации? Необходимо рассмотреть другие способы измерения рассеивания данных, которые учитывают все значения в наборе и более устойчивы к возможным выбросам. Например, стоит обратить внимание на показатели отклонения от среднего значения, которые могут быть более информативными при анализе рассеивания данных.
Источники:
Рис. 1. Числовые наборы. © ЯКласс.