В этом видео:
00:00 - Составляем план построения классификатора
03:20 - Загружаем и знакомимся с текстами комментариев
05:56 - Предобрабатываем тексты, очищаем от лишних символов и удаляем стопслова
07:33 - Получаем частотность слов в комментариях
12:16 - Создаем красивые графики "облака тэгов"
13:31 - Находим размеченный набор текстов для обучения алгоритма классификации
18:09 - Предобрабатываем размеченный набор данных и получаем векторные представления его текстов TF-IDF
22:34 - Классифицируем комментарии размеченного датасета с помощью логистической регрессии
27:00 - Оценим качество классификации с помощью графиков ROC-кривых и матрицы ошибок
34:42 - Выведем слова с наибольшим влиянием на прогноз классификатора
34:42 - Проведем снижение размерности TF-IDF векторов с помощью дистилляции словаря
39:35 - Примененим обученный классификатор Логистической регрессии для получения оценки негативности комментариев
42:55 - Валидируем полученные оценки, создадим графики скрипичных диаграмм распределения комментариев по оценки негативности
Ссылка на все используемые в этом видео файлы и код : github.com/NikitiusIvanov/rus...
Ссылка на статью на Хабре: habr.com/ru/post/599445/
5 янв 2022