Том13. Абсолютная точность и другие иллюзии. Секреты статистики - Грима Пере (читаем книги онлайн бесплатно полностью без сокращений TXT) 📗
Аналогичная ситуация может произойти и в примере с поездом. Если в половине случаев мы будем приезжать на работу на полчаса раньше, это не компенсирует получасовых опозданий во второй половине случаев, особенно если в офис нельзя попасть до начала рабочего дня. В этих примерах наиболее информативной величиной будет процент опозданий или процент случаев, когда поезд опаздывает больше чем на определенное время.
Еще один недостаток среднего арифметического — сильная зависимость от крайних значений. Разумеется, странно, что число ног у большинства людей выше среднего, но это на самом деле так: у некоторых людей всего одна нога или нет ни одной (крайние значения), из-за чего среднее число ног у людей чуть меньше двух.
Медиана
Медиана — это значение, которое будет располагаться точно в центре, если мы упорядочим значения в порядке возрастания. Если даны значения 6, 7, 5, 2 и 9, их медиана равна 6 — именно это значение расположено в центре упорядоченного ряда из этих чисел. Если число элементов четно, медиана рассчитывается как среднее арифметическое двух центральных элементов. Свойства медианы частично компенсируют недостатки среднего арифметического. Кроме того, она меньше подвержена воздействию крайних значений. К примеру, среднее арифметическое вышеприведенных чисел равно 5,8, медиана — 6. Если при вводе этих чисел в компьютер мы вместо 9 случайно укажем 99, среднее арифметическое станет равно 23,8, а медиана будет по-прежнему равна 6.
Еще одним преимуществом медианы по сравнению со средним арифметическим является тот факт, что по определению ровно 50 % значений будут меньше медианы, оставшиеся 50 % — больше. Если, например, мы хотим узнать, входим ли мы в число наиболее высокооплачиваемых сотрудников, нужно сравнить нашу зарплату именно с медианой. Рассмотрим 10 сотрудников с зарплатами 0,8; 0,8; 0,9; 0,9; 1,0; 1,0; 1,1; 1,1; 1,2 и 10 тысяч евро. Все сотрудники, за исключением одного (90 % от общего числа), получают зарплату меньше средней, которая равна 1,88 тысяч евро. С медианой подобное невозможно: если наша зарплата больше медианы, мы гарантированно входим в 50 % наиболее высокооплачиваемых сотрудников.
Другой пример. Если для сдачи экзамена нужно набрать 5 баллов и более, а средняя оценка в группе равна 5, мы не знаем, сколько студентов сдали экзамен. Если экзамен сдавали 50 студентов, может случиться так, что 41 студент набрал 4 балла и не сдал экзамен, восемь студентов получили 10 баллов, еще один — 6 баллов. В результате средняя оценка равна 5, хотя распределение оценок в группе действительно немного необычно. Если медиана равна 5, то половина студентов в группе точно сдала экзамен.
Мода
Когда речь идет о показателях центра распределения, также всегда упоминается мода. Мода — это значение, которое встречается наиболее часто. В выборке 0, 2, 7, 2, 8, 2, 5, 4 мода равна 2. Ее имеет смысл использовать для качественных показателей. Так, например, если в выборке новорожденных чаще всего встречаются карие глаза, то мода равна карему цвету. Она не содержит какой-то другой информации. Использование моды в этом контексте обусловлено скорее традициями, чем реальной полезностью.
* * *
ФЛОРЕНС НАЙТИНГЕЙЛ
Летом 1853 года, разбив турецкую армаду, русский черноморский флот был готов захватить Стамбул и взять под контроль пролив Босфор, поставив под угрозу сообщение Великобритании с Индией и нанеся ущерб интересам Франции в Средиземном море. Великобритания объявила России войну, отправив войска на полуостров Крым, где к ним присоединились французская и турецкая армии. Так началась Крымская война, которая завершилась в 1856 году и унесла тысячи жизней.
Крымская война считается самой неудачной для британского военного командования. Также это первая война, зафиксированная на фотографиях и в отчетах репортеров. Эта деталь может показаться незначительной, но журналисты в своих статьях рассказывали об ужасающих условиях жизни солдат и бедствиях, вызванных некомпетентностью военного командования. В результате общество возмутилось, и британский военный министр был вынужден отправить на фронт сестер милосердия, во главе которых стояла увлеченная, умная и опытная Флоренс Найтингейл.
Прибыв на фронт, сестры обнаружили, что госпитали находятся в ужасном состоянии. Флоренс Найтингейл объяснила, что большинство смертей было вызвано не ранениями, а инфекционными заболеваниями. Она собирала и документально фиксировала данные, которые свидетельствовали о связи между переполненностью госпиталей и уровнем смертности, уделяя основное внимание санитарии, правильному питанию и уходу за ранеными.
В течение первых семи месяцев войны, до прибытия Флоренс Найтингейл, раненый британский солдат имел больше шансов выжить, если оставался на поле боя, а не поступал в военный госпиталь. В последние шесть месяцев войны благодаря изменениям в уходе за ранеными смертность снизилась с 40 до 2 %.
Флоренс Найтингейл умело отбирала данные, отражающие реальность, и проводила грамотный анализ, чтобы понять суть проблемы и возможные способы ее решения. С помощью статистических исследований и грамотно представленных результатов она смогла преодолеть бюрократию и консерватизм военных и убедить верховное командование в необходимости радикального изменения устройства военных госпиталей. Она спасла множество жизней, а многие процедуры, введенные ею, до сих пор применяются в современных больницах. Флоренс Найтингейл — первая женщина, ставшая членом британского Королевского статистического общества.
* * *
Разумеется, вы слышали шутку: если один человек съел целую курицу, а второй остался голодным, то, по статистике, каждый съел половину курицы. Или если вы положите ноги в холодильник, а голову — в духовку, то средняя температура вашего тела будет абсолютно нормальной. Подобные недоразумения возникают из-за того, что мы хотим обобщить информацию исключительно с помощью средних значений, не учитывая разброс данных. Еще один пример, указывающий на эту же ошибку, — это попытка определить благосостояние жителей страны, учитывая только средний доход на душу населения. Если бы у вас была возможность выбрать, в какой стране родиться, то следовало бы обращать внимание не только на средний доход, но и на его разброс (вариацию). Лучше жить в стране, где каждому гарантирована четверть курицы, чем в той, где в среднем каждому достается половина курицы, но велика вероятность остаться ни с чем. В конечном счете чтобы обобщить информацию, содержащуюся в объемной выборке данных, нужно также измерить их вариацию. Для этого используются различные показатели, о которых мы расскажем далее.
Размах вариации
Размах вариации — это разность между наибольшим и наименьшим значением. Например, если дана выборка 2, 6, 7,12,12,18, размах вариации равен 18 — 2 = 16. Этот показатель очень просто вычислить, но он обладает определенным недостатком: в нем не учитывается информация, содержащаяся во всей выборке. Анализ только крайних значений, которые могут встречаться очень редко, явно недостаточен, особенно если выборка велика. Если элементов выборки мало (например, 4–5), размах вариации — подходящий показатель. Если число элементов выборки равно двум, то этот показатель столь же удобен, как и все остальные.
Дисперсия и среднеквадратическое отклонение
Наиболее часто используемый показатель вариации — среднеквадратическое отклонение. Чтобы определить его, начнем с дисперсии, так как среднеквадратическое отклонение рассчитывается как квадратный корень из дисперсии.
Если бы мы хотели разработать какой-то показатель вариации, то очевидно, что в его расчете должны были бы использоваться все данные, как в случае со средним арифметическим. Например, дана выборка 1, 2, 4, 7 и 9. Можно вычислить среднюю разность между каждым значением и средней величиной, равной 4,6: