Том13. Абсолютная точность и другие иллюзии. Секреты статистики [Пере Грима] (fb2) читать постранично, страница - 3


 [Настройки текста]  [Cбросить фильтры]

следующей странице. Современному читателю сложно понять, насколько передовым был тогда такой способ представления данных, ведь сегодня он используется повсеместно.



Фрагмент карты района Сохо, где в 1854 году разразилась эпидемия холеры. Источник питьевой воды на улице Броуд обозначен словом PUMP в центре карты. Горизонтальные линии обозначают число умерших в каждом доме.


Умершие от холеры обозначены параллельными отрезками. При нанесении этих обозначений на обычную карту рядом с каждым домом сразу же становится понятно, где располагался очаг эпидемии. Очевидно, что большинство смертельных исходов зафиксировано рядом с источником питьевой воды (pump) на улице Броуд в центральной части карты. Если прибавить к этому скрупулезный труд Сноу по сбору информации, то связь эпидемии с источником питьевой воды не требует дополнительных подтверждений в виде какой-то конкретной теории. Именно так посчитали местные власти и приняли решение закрыть колонку. Очаг заболевания угас, что и стало доказательством того, что холера передается через зараженную воду.

Эксперименты, проведенные Луи Пастером в период с 1860 по 1864 год, сыграли ключевую роль в формировании теории патогенов и позволили дать теоретическое объяснение наблюдениям Сноу постфактум. В 1885 году немецкий ученый Роберт Кох установил, что возбудителем холеры является бактерия Vibrio cholerae, и уже в конце века системы водоснабжения большей части крупных европейских городов были заменены. Призрак холеры перестал угрожать половине мира.


Резюмируем данные (1): показатели центра распределения

Описать подозреваемого в преступлении так, чтобы другие смогли гарантированно опознать его, — непростая задача, если только у подозреваемого нет какой-то отличительной черты. Однако эксперты полиции знают, на что следует обращать внимание и какие эпитеты нужно использовать при описании преступника, чтобы другой человек мог себе его представить. Они также знают, как нужно составить фоторобот преступника, чтобы его было легче опознать.

Чем-то подобным занимается и статистика. Чтобы обобщить обширное множество данных, рассчитывается несколько показателей (их может быть, например, пять или шесть), которые содержат больше всего информации и помогают получить достаточно точное представление обо всех данных в целом. Эти показатели обычно делятся на три группы: показатели центра распределения, показатели вариации и квантили. В этом разделе мы расскажем о показателях первой группы, которые указывают, в окрестности каких значений располагаются данные.


Среднее арифметическое

Мы все рассчитывали свой средний балл, когда учились в школе или институте. Например, баллы выставляются по шкале от 0 до 10, итоговый балл рассчитывается как средний балл трех промежуточных экзаменов, а пороговая оценка равна 5. Оценки 3, 2 и 6 на промежуточных экзаменах означают, что вы не сдали экзамен; оценки 4, 4 и 7 означают успешную сдачу (а как быть, если вы получили 4, 4,3 и 6,3?).

Среднее арифметическое — это один из наиболее распространенных показателей центра распределения. Эта величина используется весьма широко благодаря своим особым свойствам и простоте расчетов. Она также демонстрирует нетривиальные свойства при некоторых расчетах. Попробуем, к примеру, найти среднее арифметическое средних арифметических. Среднее арифметическое (3, 4, 3) равно 4, среднее арифметическое (4, 6) равно 5, но среднее арифметическое всех этих чисел равно 4,4, а не среднему значению средних арифметических (4 + 5)/2 = 4,5. Как правило, если дано множество из n1 значений со средним арифметическим и второе x¯1 множество из n2 значений со средним арифметическим x¯2, то средним арифметическим значений множества из (n1 + n2) значений будет


Эта формула эквивалентна формуле расчета среднего для всех значений, так как если выборка содержит n элементов, среднее значение которых равно х¯, их сумма будет равна ¯. Таким образом, числитель общего среднего арифметического равен сумме всех элементов выборки, а знаменатель — общему числу элементов выборки.

Рассмотрим пример. Если средний возраст сотрудников-мужчин в компании равен 36 годам, а средний возраст женщин — 32 годам, то каков средний возраст всех сотрудников? Ответ зависит от конкретной численности мужчин и женщин. Если половина сотрудников — мужчины, а половина — женщины, то средний возраст будет равняться 34 годам. Если 73 % сотрудников — мужчины, а 23 % — женщины, то средний возраст будет равен 35 годам. Заметим, что доля мужчин и женщин рассчитывается по следующим формулам: p1 = n1(n1 + n2) и р2 = n2(n1 + n2), поэтому первую формулу можно записать в следующем виде: x¯tр1x¯1р2x¯2.

В некоторых случаях среднее арифметическое является не самой