Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества [Артём Владимирович Груздев] (pdf) читать постранично

Книга в формате pdf! Изображения и текст могут не отображаться!


 [Настройки текста]  [Cбросить фильтры]

А. В. Груздев

Предварительная
подготовка данных
в Python
Том 2
План, примеры и метрики качества

Москва, 2023

УДК 004.04Python
ББК 32.372
Г90

Г90

Груздев А. В.
Предварительная подготовка данных в Python. Том 2: План, примеры
и метрики качества. – М.: ДМК Пресс, 2023. – 814 с.: ил.
ISBN 978-5-93700-177-1
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Во втором томе
рассматривается сам процесс предварительной подготовки данных, а также
некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O,
Dask, Docker, Google Colab).
Издание рассчитано на специалистов по анализу данных, а также может быть
полезно широкому кругу специалистов, интересующихся машинным обучением.

УДК 004.04Python
ББК 32.372

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой
бы то ни было форме и какими бы то ни было средствами без письменного разрешения
владельцев авторских прав.
Материал, изложенный в данной книге, многократно проверен. Но, поскольку вероятность технических ошибок все равно существует, издательство не может гарантировать
абсолютную точность и правильность приводимых сведений. В связи с этим издательство
не несет ответственности за возможные ошибки, связанные с использованием книги.

ISBN 978-5-93700-177-1

© Груздев А., 2023
© Оформление, издание, перевод, ДМК Пресс, 2023

Оглавление

Введение................................................................................................7
ЧАСТЬ 3. ПЛАН ПРЕДВАРИТЕЛЬНОЙ
ПОДГОТОВКИ ДАННЫХ................................................................. 8
1. Введение........................................................................................... 8
2. Формирование выборки.............................................................. 10
2.1. Генеральная и выборочная совокупности................................................10
2.2. Характеристики выборки...........................................................................10
2.3. Детерминированные и вероятностные выборки.....................................12
2.4. Виды, методы и способы вероятностного отбора....................................13
2.5. Подходы к определению необходимого объема выборки.......................14

3. Определение «окна выборки» и «окна созревания».............. 28
4. Определение зависимой переменной....................................... 32
5. Загрузка данных из CSV-файлов и баз данных SQL................ 33
6. Удаление бесполезных переменных, переменных
«из будущего», переменных с юридическим риском.................. 39
7. Преобразование типов переменных и знакомство
со шкалами переменных.................................................................. 41
7.1. Количественные (непрерывные) шкалы...................................................41
7.2. Качественные (дискретные) шкалы...........................................................43

8. Нормализация строковых значений.......................................... 45
9. Обработка дублирующихся наблюдений.................................. 61
10. Обработка редких категорий.................................................... 62
11. Появление новых категорий в новых данных....................... 69
12. Импутация пропусков................................................................. 70
12.1. Способы импутации количественных и бинарных переменных..........70

4



Оглавление

12.2. Способы импутации категориальных переменных...............................71
12.3. Практика....................................................................................................73

13. Обработка выбросов................................................................... 90
14. Описательные статистики.......................................................... 94
14.1. Пифагорейские средние, медиана и мода..............................................94
14.2. Квантиль....................................................................................................95
14.3. Дисперсия и стандартное отклонение....................................................96
14.4. Корреляция и ковариация........................................................................97
14.5. Получение сводки описательных статистик в библиотеке pandas......102

15. Нормальное распределение....................................................104
15.1. Знакомство с нормальным распределением........................................104
15.2. Коэффициент островершинности,
коэффициент эксцесса и коэффициент асимметрии...................................107
15.3. Гистограмма распределения и график квантиль–квантиль................111
15.4. Вычисление коэффициента асимметрии и коэффициента
эксцесса, построение гистограммы и графика квантиль–квантиль
для подбора преобразований, максимизирующих нормальность..............112
15.5. Подбор преобразований, максимизирующих нормальность
для правосторонней асимметрии..................................................................116
15.6. Подбор преобразований, максимизирующих нормальность
для левосторонней асимметрии.....................................................................128
15.7. Преобразование Бокса–Кокса................................................................129

16. Конструирование признаков...................................................135
16.1. Статическое конструирование признаков исходя
из предметной области...................................................................................135
16.2. Статическое конструирование признаков исходя из алгоритма........170
16.3. Динамическое конструирование признаков исходя
из особенностей алгоритма............................................................................290
16.4. Конструирование признаков для временных