В этом видео я расскажу вам про два очень полезных метода cut и qcut, которые используются для разделения числовых данных на интервалы, выраженные в типе данных category.
Использование этих методов связано в первую очередь с понятием 'дискретизация' (процесс преобразования непрерывных данных в набор дискретных сегментов).
Методы cut и qcut используются для:
- сегментации и сортировки значений данных по интервалам,
- преобразования непрерывных данных в набор дискретных сегментов.
Мы используем метод cut, когда необходимо сегментировать и сортировать значения данных по интервалам или если нам нужно перейти от непрерывной переменной к категориальной. Например, с помощью метода cut можно преобразовать возраст в группы возрастных диапазонов.
Метод qcut - это функция дискретизации на основе квантилей. То есть мы разделяем переменные на одинаковые по размеру интервалы на основе квантилей выборки. На выходе мы получаем объект Categorical, указывающий принадлежность к квантилям для каждой точки данных. Что такое квантили и какими они бывают я также расскажу в данном видео.
План урока
00:00 | О чем это видео
01:40 | Открываем файл урока
02:30 | Метод CUT
04:38 | CUT - Вариант 1 (когда bins=число)
06:38 | CUT - если bins=число и retbins=True
08:14 | CUT - если bins = число и labels = [список названий]
09:38 | CUT - если bins = число и labels = False
10:22 | CUT - Вариант 2 (когда bins = [список])
11:40 | CUT - если bins = [список] и right = False
12:04 | CUT - если bins = [список], right = False, labels = [список с названиями]
12:40 | Сохраняем результат разбиения в исходную структуру DataFrame
14:03 | Пример для иллюстрации принципа работы параметра include_lowest
16:34 | Составляем представление о результатах разбиения, сохраняем
18:04 | Метод QCUT
18:50 | Знакомимся с несколькими терминами статистики (квантиль, квартиль)
20:37 | Открываем файл с результатами опроса
21:20 | Строим гистограмму и применяем метод describe для оценки распределения
24:32 | Квартили и нормальное распределение
26:07 | Делим на группы на основе квантилей/квартилей
27:46 | Пример - разбиение данных на квинтили (на пятые части)
Ставь ЛАЙК, если считаешь это видео полезным, и тогда его увидят другие :)
Связанные видео-уроки
• Тип данных CATEGORY в ...
28 июн 2024