Тёмный

Кластеризация в Python (KMeans и иерархическая) 

Andrey Kulinich
Подписаться 2,7 тыс.
Просмотров 12 тыс.
50% 1

В данном примере рассмотрены подходы к кластеризации методами KMeans и иерархической кластеризации. Использовался Python и блокноты Jupyter. Пример можно использовать как шаблон для решения практических задач. Исходных код примера можно найти по ссылке github.com/aikula/DataDriven/...

Опубликовано:

 

28 июн 2020

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 28   
@greteost4706
@greteost4706 3 года назад
Андрей, спасибо вам за ваш труд, вы прекрасны! Мне очень нравятся ваши подача материала и дикция :)
@aikula999
@aikula999 3 года назад
Спасибо!
@user-yl1ub2dr2g
@user-yl1ub2dr2g 6 месяцев назад
Очень хорошее видео и прекрасный блокнот. Для меня как новичка были очень полезны ваши комментарии про нормировку. Было очень полезно посмотреть на графики падения расстояния и дендрограммы.
@Dmitrykholodov
@Dmitrykholodov 3 года назад
Спасибо Вам большое! Материал просто ну очень полезный. Вы нас очень выручаете
@igtijd1039
@igtijd1039 2 года назад
Спасибо вам за такой подробный, качественный, полноценный кластерный анализ. Очень помогли в написании проекта.
@user-uy2gz9vi9x
@user-uy2gz9vi9x 2 года назад
Вы просто супер, спасибо большое!
@user-jb2nn3on2d
@user-jb2nn3on2d 3 года назад
Андрей спасибо за видео! Посоветуйте пожалуйста методы визуализации данных средствами Python в многомерном пространстве.
@user-dl1ch7dt9p
@user-dl1ch7dt9p 3 года назад
pyplot.hist2d - отображает гистограмму в трёх осях - xy, а цветом z
@user-jb2nn3on2d
@user-jb2nn3on2d 3 года назад
@@user-dl1ch7dt9p спасибо
@user-nw9dx4fj9s
@user-nw9dx4fj9s 3 года назад
автор немного оговорился, 50% процентиль (медиана) в описательной статистике которую выдает метод describe() показывает наиболее вероятное количество обзоров лишь в том случает, если это нормальное распределение, ну это так, по сути больше придирка, я сам вчера только узнал, вот и выпендрился для закрепления инфы =) А подача очень доступная, лайк!
@aikula999
@aikula999 3 года назад
Не оговорился. :-) Медиана в любом распределении - это линия, выше и ниже которой (условно) по 50% значений. А вот среднее значение (mean) действительно не равно медиане в смещенных распределениях. Надо пересмотреть, конечно, возможно, я оговорился имя в виду моду (наиболее часто встречаемое значение) - тогда да, она будет также совпадать с медианной и средний только в нормальном (или треугольном) распределении. Спасибо за отзыв! Ценно!
@kirillbelyi6459
@kirillbelyi6459 3 года назад
Здравствуйте, подскажите пожалуйста как действовать, если необходимо произвести кластерный анализ и разделение на кластеры, при этом необходимо учитывать более 2-3 столбцов в качестве атрибутов объекта(большой размерности). Спасибо
@aikula999
@aikula999 3 года назад
Если достаточно памяти и вычислительных ресурсов - то точно так же. Как вариант, можно использовать сжатие признаков методом главных компонент pca или все таки выделить только наиболее значимые признаки.
@user-si5lj4kd2e
@user-si5lj4kd2e 3 года назад
Добрый вечер. Подскажите пожалуйста, занимаетесь ли вы репетиторством по теме анализа данных. Или может быть есть курсы.
@aikula999
@aikula999 3 года назад
Анна, к сожалению, не занимаюсь. Курсов большой выбор. Например, praktikum.yandex.ru или geekbrains.ru
@user-si5lj4kd2e
@user-si5lj4kd2e 3 года назад
@@aikula999 спасибо
@Poluna510
@Poluna510 3 года назад
Здравствуйте, Андрей! можете подсказать, импортирую csv файл в юпитер, но датафрейм не красивый) получается. Съезжают столбцы, между названиями столбцов появляются ; как это можно исправить. Спасибо
@aikula999
@aikula999 3 года назад
Елена, скорее всего, это ошибки самого файла. Не везде, например, стоят разделители. Возможно, есть также пустые строки в заголовке. В этом случае, надо или удалить, или указать на их наличие при импорте.
@romanomacroni4903
@romanomacroni4903 2 года назад
А почему сума cluster size больше чем елементов в датафрейме. Заранее спасибо за ответ.
@aikula999
@aikula999 2 года назад
Посмотрел блокнот. Не нашел такого. Можете более детально описать в какой части кода встретили такое? Естественно, что сумма размеров кластеров не может быть больше количества элементов в выборке.
@romanomacroni4903
@romanomacroni4903 2 года назад
@@aikula999 Спасибо уже разобрался
@maestrox8
@maestrox8 3 года назад
Здравствуйте, не подскажете как средствами python проверить кластеризацию функционалом качества например через формулу Сумма средних внутрикластерных расстояний стремится к минимуму?
@aikula999
@aikula999 3 года назад
Здравствуйте, такой метод оценки называется методом "Силуэта". Например, описание и пример habr.com/ru/company/jetinfosystems/blog/467745/
@maestrox8
@maestrox8 3 года назад
@@aikula999 огромное спасибо вам!
@annchebb
@annchebb Год назад
Добрый день, Андрей! Можно ли к Вам обратиться для выполнения кластеризации? Массив данных предоставлю
@aikula999
@aikula999 Год назад
Добрый день, Анна! Да, можно. Напишите в телеграмме. Мой ник @aikula
@romanomacroni4903
@romanomacroni4903 2 года назад
Скажите а если в датасэте есть числа с минусом. Их нормализация проходит по том же принципе.
@aikula999
@aikula999 2 года назад
Да, абсолютно также.
Далее