Анализ тональности комментариев в YouTube с помощью машинного обучения (TF-IDF, LogisticRegression)

Подписаться 445

Просмотров 4,7 тыс.

50% 1

В этом видео:
00:00 - Составляем план построения классификатора
03:20 - Загружаем и знакомимся с текстами комментариев
05:56 - Предобрабатываем тексты, очищаем от лишних символов и удаляем стопслова
07:33 - Получаем частотность слов в комментариях
12:16 - Создаем красивые графики "облака тэгов"
13:31 - Находим размеченный набор текстов для обучения алгоритма классификации
18:09 - Предобрабатываем размеченный набор данных и получаем векторные представления его текстов TF-IDF
22:34 - Классифицируем комментарии размеченного датасета с помощью логистической регрессии
27:00 - Оценим качество классификации с помощью графиков ROC-кривых и матрицы ошибок
34:42 - Выведем слова с наибольшим влиянием на прогноз классификатора
34:42 - Проведем снижение размерности TF-IDF векторов с помощью дистилляции словаря
39:35 - Примененим обученный классификатор Логистической регрессии для получения оценки негативности комментариев
42:55 - Валидируем полученные оценки, создадим графики скрипичных диаграмм распределения комментариев по оценки негативности
Ссылка на все используемые в этом видео файлы и код : github.com/NikitiusIvanov/rus...
Ссылка на статью на Хабре: habr.com/ru/post/599445/

Спорт

Опубликовано:

5 янв 2022

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 23

@thatombele5522 2 года назад

пришёл с Хабра, шикарная статья, теперь и видосик посмотрим :3

@senex9336 Год назад

Пример взятый для разбора забавный, конечно, получился) Добавляет интереса, так скажем)

@user-li7hi9em2o Год назад

Никита, Привет! Спасибо тебе большое за видео, у меня вопрос по коду...почему в облаке слов Ш. ты в дикте передаешь П.? и наоборот. **wordcloud_shulman** = WordCloud(background_color="black", colormap = 'Blues', max_words=200, mask=None, width=1600, height=1600)\ .generate_from_frequencies( dict(**putin_frequence**.values))

@psyhhhh Год назад

эм файла positive нету можно ли ссылку на него?

@johnswet3569 2 года назад

Отлично! Спасибо за проделанную работу. А есть ссылка на колаб проект, не получается в колабе настроить хромдрайвер?

@ivanovnikitok 2 года назад

Ссылка на весь архив с файлами в гугл диске, если кликнуть на sentiment_analysis_colab.ipynb он должен открыться в colab : drive.google.com/drive/folders/1hqTJPT0G2SwU47Ul7l8j0wfhO2oiyg9B?usp=sharing

@ivanovnikitok 2 года назад

Есть пара туториалов как работать с хромдрайвером через облако колаба, можно попробовать немного доработать код и наверное должно запустится) stackoverflow.com/questions/51046454/how-can-we-use-selenium-webdriver-in-colab-research-google-com

@johnswet3569 2 года назад

@@ivanovnikitok да, тоже нашел эти примеры, пока не получилось

@derafum Год назад

@@ivanovnikitok ,Как я могу сохранить нейросеть, чтобы использовать каждый раз без обучения

@georgemichael6884 5 месяцев назад

@@johnswet3569 все получилось.работает.чат джипити пишет!)

@johnswet3569 2 года назад

При большом количестве данных в моменте преобразования в массив появляется ошибка памяти: count = counter.fit_transform(comments_putin_df['text_clear']) count count.toarray().sum(axis = 0).shape MemoryError: Unable to allocate 1.01 TiB for an array with shape (622644, 222393) and data type int64 как это можно обойти?

@ivanovnikitok 2 года назад

Да, есть такое, но на самом деле лучше сразу считать сумму по каждому компоненту в разряженной матрице и уже после этого преобразовывать в массив numpy типа: np.array(sparce_mtx.sum(axis = 0))

@johnswet3569 2 года назад

@@ivanovnikitok спасибо, получилось

@timuryunusov7307 2 месяца назад

Итого: потрачено 45 минут видео и 3-4 часа работы на то, чтобы доказать очевидное))

@MrPushcart 2 года назад

А где код на гитхабе? Не могу увидеть) Только результаты работы

@ivanovnikitok 2 года назад

Здравствуйте, код: github.com/NikitiusIvanov/russian_youtube_coments_sentimen_analysis/blob/main/sentiment_analysis.ipynb

@TheNevfy 2 года назад

ничего не поняла, но завораживает....неужели этому можно научиться?

@ivanovnikitok 2 года назад

Конечно, можно и даже нужно, особенно если это интересно! Могу порекомендовать бесплатный курс stepik.org/course/4852/, там нужны только база в статистике (stepik.org/course/76) и база питона (stepik.org/course/67)

@TheNevfy 2 года назад

@@ivanovnikitok спасибо, добрый человек.... Ваше "только" вызвало улыбку, а сами "только" смех сквозь слезы....жизни не хватит....Но посмотрю все. Спасибо и удачи Вам.

@derafum Год назад

Спасибо за видео. Как я могу сохранить нейросеть, чтобы использовать каждый раз без обучения ?

@ivanovnikitok Год назад

Привет! Можно например использовать joblib или pickle которые просто сохраняют объект python в бинарник, так же в фреймворках (i.e. keras of pytorch) есть встроенная сериализация моделей, что-то типа после обучения вызываешь метод .save() и сохраняешь в файл, а потом с помощью load() восстанавливаешь из файла, легко гуглится serialization keras, serialization pytorch и т.д.