Тёмный

Антон Кленицкий: Кластеризация коротких текстов 

ML Trainings
Подписаться 25 тыс.
Просмотров 2,9 тыс.
50% 1

Data Fest Online 2021
NLP in Industry track ods.ai/tracks/...
Как сделать кластеризацию коротких текстов, состоящих из одного или нескольких предложений? Конечно, совсем несложно запустить на данных какой-нибудь стандартный алгоритм кластеризации. Но результат может разочаровать. Чтобы получить однородные и осмысленные в кластера, в которых все фразы действительно похожи, придется немного постараться. Нужно решить, в каком виде лучше подготовить данные на вход и выбрать подходящий алгоритм кластеризации. А затем понять, как проанализировать полученные результаты.
Посмотреть эфир и список треков и организаторов: datafest.ru/2021/
Зарегистрироваться на фест и получить доступ к трекам: ods.ai/events/...
Вступить в сообщество: ods.ai/
Соцсети Data Fest:
t.me/datafest
datafest

Опубликовано:

 

13 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 6   
@pavelk7078
@pavelk7078 3 месяца назад
Спасибо вам большое, за видео и поделились ссылками. Прошел по ссылкам, запустил программу, изучил подходы. Это очень помогло сделать дипломную работу. К сожалению в интернете так много мусора, не работающих и уже полностью устаревших подходов. Найти что-то действительно стоящее - очень и очень трудно. Я рад, что почти случайно, нашел это видео. Желаю вам успехов в дальнейшей работе. Надеюсь, это не последний материал от вас
@mustakhimovdair1857
@mustakhimovdair1857 3 года назад
Антон, а подскажите какой инструмент вы использовали для визуализации кластеров? на слайде "Как анализировать получившиеся кластера"
@TheDeatgod
@TheDeatgod 3 года назад
В Алгоритме Birch есть параметер threshold, который определяет радиус. Цитата из sklearn: "The radius of the subcluster obtained by merging a new sample and the closest subcluster should be lesser than the threshold. Otherwise a new subcluster is started". Почему изменение этого гиперпараметра не подходит для задачи?
@antklen1366
@antklen1366 3 года назад
В первом приближении можно использовать и Birch с этим параметром. Но почему-то у Birch этот порог работает не строго, какие-то кластера немного вылезают за его пределы и имеют большее расстояние между точками. Кроме того, получаются сильно неоптимальные по размеру кластера, много мелких кластеров. То есть при заданных ограничениях на расстояние между точками можно сделать лучше.
@IlyaBoytsov-dt8lt
@IlyaBoytsov-dt8lt 3 года назад
Sentence RuBERT из deeppavlov не пробовали? Интересно его сравнить с LaBSE по качеству.
@antklen1366
@antklen1366 3 года назад
Нет, Sentence RuBERT пока не пробовали. Сравнить можно быстро, если есть какие-нибудь размеченные данные. Тогда можно взять эмбеддинги, поверх них сделать простую модель (KNN или логистическую регрессию) и решать задачу классификации, смотреть какие эмбеддинги лучше результат дают.
Далее
Faites comme moi
00:14
Просмотров 1,8 млн
Faites comme moi
00:14
Просмотров 1,8 млн