Методы CUT и QCUT в pandas. Разделяем набор числовых данных на интервалы и категории

Подписаться 89

50% 1

В этом видео я расскажу вам про два очень полезных метода cut и qcut, которые используются для разделения числовых данных на интервалы, выраженные в типе данных category.
Использование этих методов связано в первую очередь с понятием 'дискретизация' (процесс преобразования непрерывных данных в набор дискретных сегментов).
Методы cut и qcut используются для:
- сегментации и сортировки значений данных по интервалам,
- преобразования непрерывных данных в набор дискретных сегментов.
Мы используем метод cut, когда необходимо сегментировать и сортировать значения данных по интервалам или если нам нужно перейти от непрерывной переменной к категориальной. Например, с помощью метода cut можно преобразовать возраст в группы возрастных диапазонов.
Метод qcut - это функция дискретизации на основе квантилей. То есть мы разделяем переменные на одинаковые по размеру интервалы на основе квантилей выборки. На выходе мы получаем объект Categorical, указывающий принадлежность к квантилям для каждой точки данных. Что такое квантили и какими они бывают я также расскажу в данном видео.
План урока
00:00 | О чем это видео
01:40 | Открываем файл урока
02:30 | Метод CUT
04:38 | CUT - Вариант 1 (когда bins=число)
06:38 | CUT - если bins=число и retbins=True
08:14 | CUT - если bins = число и labels = [список названий]
09:38 | CUT - если bins = число и labels = False
10:22 | CUT - Вариант 2 (когда bins = [список])
11:40 | CUT - если bins = [список] и right = False
12:04 | CUT - если bins = [список], right = False, labels = [список с названиями]
12:40 | Сохраняем результат разбиения в исходную структуру DataFrame
14:03 | Пример для иллюстрации принципа работы параметра include_lowest
16:34 | Составляем представление о результатах разбиения, сохраняем
18:04 | Метод QCUT
18:50 | Знакомимся с несколькими терминами статистики (квантиль, квартиль)
20:37 | Открываем файл с результатами опроса
21:20 | Строим гистограмму и применяем метод describe для оценки распределения
24:32 | Квартили и нормальное распределение
26:07 | Делим на группы на основе квантилей/квартилей
27:46 | Пример - разбиение данных на квинтили (на пятые части)
Ставь ЛАЙК, если считаешь это видео полезным, и тогда его увидят другие :)
Связанные видео-уроки
• Тип данных CATEGORY в ...

Опубликовано:

28 июн 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 4

@svetaonopa6341 9 месяцев назад

Спасибо большое! Очень помогли разобраться в этой теме!

@DataAnalystVictoria 9 месяцев назад

И Вам спасибо за обратную связь! 😉

@analyst_from_ufa 7 месяцев назад

В целом всё круто, только не услышал про применение параметра "duplicates", по которому искал информацию 🙂

@DataAnalystVictoria 7 месяцев назад

Спасибо за комментарий. С параметром duplicates все довольно просто. Если вы в bins передаете список неуникальных значений (например, вот такой код: s = pd.Series(np.array([2, 4, 6, 8, 10]), index=['a', 'b', 'c', 'd', 'e'] pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False)), и при этом у вас параметр duplicates стоит в позиции по умолчанию, то вы получите ошибку "ValueError: Bin edges must be unique: array([ 0, 2, 4, 6, 10, 10]). You can drop duplicate edges by setting the 'duplicates' kwarg", что значит, что краевые точки интевалов (передаваемые числа) должны быть уникальными, и вы можете автоматически удалить повторяющиеся элементы, если присвоите параметру duplicates значение drop: pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, right=False, duplicates='drop'), то есть метод cut c параметром duplicates='drop' сам удалит дубликаты, если они имеются.