Искусство статистики Как находить ответы в данных [Автор неизвестен] (pdf) читать постранично, страница - 3

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

раз [10]. Постоянно пересматривается
определение валового внутреннего продукта (ВВП). Так, к ВВП
Великобритании в 2014 году были отнесены торговля наркотиками
и проституция; для оценок использовались необычные источники
данных, например, такие как сайт Punternet, который оценивает
услуги проституток. Он-то и предоставил цены различных видов
услуг [11].

Даже

наши

собственные

ощущения

могут

быть

систематизированы и подвергнуты статистическому анализу. В
рамках проходившего в течение года опроса, закончившегося в
сентябре

2017-го,

у 150 тысяч

человек

спросили,

насколько

счастливыми они себя чувствовали вчера [12]. Средний балл ответов
по шкале от 0 до 10 составил 7,5, то есть больше, чем в 2012 году,
когда он был 7,3. Это может быть связано с восстановлением
экономики после финансового кризиса 2008 года. Самые низкие
баллы оказались у людей в возрасте от 50 до 54 лет, а самые
высокие – от 70 до 74 лет, что типично для Великобритании [13].
Измерять счастье сложно, тогда как ответить на вопрос, жив
человек или мертв, казалось бы, куда проще (как покажут
примеры, представленные в книге, рождаемость и смертность –
общие проблемы в статистической науке). Однако в США каждый
штат может иметь собственное юридическое определение смерти,
и, хотя в 1981 году в целях унификации был принят Закон о
единообразном определении смерти (Uniform Declaration of Death
Act), небольшие расхождения в этом вопросе все же остались. Так,
человек, объявленный мертвым в Алабаме, может – по крайней
мере, теоретически – перестать быть юридически мертвым при
8

пересечении границы с Флоридой, поскольку там факт смерти
должны зарегистрировать два дипломированных врача [14].
Эти примеры показывают, что статистические данные всегда в
какой-то степени основаны на суждениях и было бы очевидным
заблуждением считать, что всю сложность личного опыта можно
однозначно закодировать и записать в электронных таблицах или
каких-то

компьютерных

программах.

Все

определенные,

посчитанные и измеренные характеристики людей и окружающего
нас мира – это всего лишь информация и отправная точка к
реальному миропониманию.
Как источник таких знаний данные имеют два основных
ограничения. Во-первых, это почти всегда несовершенная мера
того, что нас действительно интересует: простая просьба оценить,
насколько люди были счастливы на прошлой неделе, по шкале от 0
до 10, вряд ли отражает эмоциональное благополучие нации.
Во-вторых, все, что мы станем измерять, будет отличаться в разных
местах, у разных людей и в разное время, и проблема состоит в
умении извлечь осмысленную информацию из этих, на первый
взгляд, случайных колебаний.
На протяжении веков статистика сталкивалась с этими двумя
задачами и играла ведущую роль в стремлении ученых познать
мир. Она дает основу для интерпретации данных (которые всегда
несовершенны),

чтобы

отличить

важные

взаимосвязи

от

индивидуальных особенностей, которые делают нас уникальными.
Однако мир постоянно меняется, появляются новые вопросы и
новые источники данных, поэтому и статистика должна меняться.

Люди

считали

и

измеряли

всегда.

Однако

современная

статистика как наука фактически зародилась в 1650-х годах,
когда, как мы увидим в главе 8, понятие вероятности впервые было
правильно представлено Блезом Паскалем и Пьером Ферма. С такой
прочной математической основой прогресс заметно ускорился. В
9

сочетании

с

данными

о

возрасте

смерти

людей

теория

вероятностей позволила рассчитывать пенсии и годовые платежи.
Когда ученые поняли, как работать с разбросами в измерениях, это
революционизировало

астрономию.

Энтузиасты

Викторианской

эпохи [15] были одержимы сбором сведений о человеческом теле (и о
многом другом) и установили прочную связь между статистическим
анализом и генетикой, биологией и медициной. Позже, в XX веке,
статистика приблизилась к математике, и, к сожалению, для
многих студентов и практиков эта область стала синонимом
механического
инструментов,

приложения
многие

из

определенных

которых

были

статистических

названы

в

честь

эксцентричных статистиков – с ними мы познакомимся далее в
книге.
Этот распространенный взгляд на статистику как на базовый
«набор

инструментов»

в настоящее

время

сталкивается

с

серьезными проблемами. Во-первых, мы живем в век науки о
данных, когда большие и сложные массивы данных собираются из
самых обычных источников, таких как мониторинг дорожного
движения,

социальных

сетей

и

покупок

онлайн,

а

затем

используются в качестве основы для технологических инноваций –
например, оптимизации движения