Тёмный

Анализ тональности комментариев в YouTube с помощью машинного обучения (TF-IDF, LogisticRegression) 

Никита Иванов (Data Utilitarian)
Просмотров 4,7 тыс.
50% 1

В этом видео:
00:00 - Составляем план построения классификатора
03:20 - Загружаем и знакомимся с текстами комментариев
05:56 - Предобрабатываем тексты, очищаем от лишних символов и удаляем стопслова
07:33 - Получаем частотность слов в комментариях
12:16 - Создаем красивые графики "облака тэгов"
13:31 - Находим размеченный набор текстов для обучения алгоритма классификации
18:09 - Предобрабатываем размеченный набор данных и получаем векторные представления его текстов TF-IDF
22:34 - Классифицируем комментарии размеченного датасета с помощью логистической регрессии
27:00 - Оценим качество классификации с помощью графиков ROC-кривых и матрицы ошибок
34:42 - Выведем слова с наибольшим влиянием на прогноз классификатора
34:42 - Проведем снижение размерности TF-IDF векторов с помощью дистилляции словаря
39:35 - Примененим обученный классификатор Логистической регрессии для получения оценки негативности комментариев
42:55 - Валидируем полученные оценки, создадим графики скрипичных диаграмм распределения комментариев по оценки негативности
Ссылка на все используемые в этом видео файлы и код : github.com/NikitiusIvanov/rus...
Ссылка на статью на Хабре: habr.com/ru/post/599445/

Спорт

Опубликовано:

 

5 янв 2022

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 23   
@thatombele5522
@thatombele5522 2 года назад
пришёл с Хабра, шикарная статья, теперь и видосик посмотрим :3
@senex9336
@senex9336 Год назад
Пример взятый для разбора забавный, конечно, получился) Добавляет интереса, так скажем)
@user-li7hi9em2o
@user-li7hi9em2o Год назад
Никита, Привет! Спасибо тебе большое за видео, у меня вопрос по коду...почему в облаке слов Ш. ты в дикте передаешь П.? и наоборот. **wordcloud_shulman** = WordCloud(background_color="black", colormap = 'Blues', max_words=200, mask=None, width=1600, height=1600)\ .generate_from_frequencies( dict(**putin_frequence**.values))
@psyhhhh
@psyhhhh Год назад
эм файла positive нету можно ли ссылку на него?
@johnswet3569
@johnswet3569 2 года назад
Отлично! Спасибо за проделанную работу. А есть ссылка на колаб проект, не получается в колабе настроить хромдрайвер?
@ivanovnikitok
@ivanovnikitok 2 года назад
Ссылка на весь архив с файлами в гугл диске, если кликнуть на sentiment_analysis_colab.ipynb он должен открыться в colab : drive.google.com/drive/folders/1hqTJPT0G2SwU47Ul7l8j0wfhO2oiyg9B?usp=sharing
@ivanovnikitok
@ivanovnikitok 2 года назад
Есть пара туториалов как работать с хромдрайвером через облако колаба, можно попробовать немного доработать код и наверное должно запустится) stackoverflow.com/questions/51046454/how-can-we-use-selenium-webdriver-in-colab-research-google-com
@johnswet3569
@johnswet3569 2 года назад
@@ivanovnikitok да, тоже нашел эти примеры, пока не получилось
@derafum
@derafum Год назад
@@ivanovnikitok ,Как я могу сохранить нейросеть, чтобы использовать каждый раз без обучения
@georgemichael6884
@georgemichael6884 5 месяцев назад
@@johnswet3569 все получилось.работает.чат джипити пишет!)
@johnswet3569
@johnswet3569 2 года назад
При большом количестве данных в моменте преобразования в массив появляется ошибка памяти: count = counter.fit_transform(comments_putin_df['text_clear']) count count.toarray().sum(axis = 0).shape MemoryError: Unable to allocate 1.01 TiB for an array with shape (622644, 222393) and data type int64 как это можно обойти?
@ivanovnikitok
@ivanovnikitok 2 года назад
Да, есть такое, но на самом деле лучше сразу считать сумму по каждому компоненту в разряженной матрице и уже после этого преобразовывать в массив numpy типа: np.array(sparce_mtx.sum(axis = 0))
@johnswet3569
@johnswet3569 2 года назад
@@ivanovnikitok спасибо, получилось
@timuryunusov7307
@timuryunusov7307 2 месяца назад
Итого: потрачено 45 минут видео и 3-4 часа работы на то, чтобы доказать очевидное))
@MrPushcart
@MrPushcart 2 года назад
А где код на гитхабе? Не могу увидеть) Только результаты работы
@ivanovnikitok
@ivanovnikitok 2 года назад
Здравствуйте, код: github.com/NikitiusIvanov/russian_youtube_coments_sentimen_analysis/blob/main/sentiment_analysis.ipynb
@TheNevfy
@TheNevfy 2 года назад
ничего не поняла, но завораживает....неужели этому можно научиться?
@ivanovnikitok
@ivanovnikitok 2 года назад
Конечно, можно и даже нужно, особенно если это интересно! Могу порекомендовать бесплатный курс stepik.org/course/4852/, там нужны только база в статистике (stepik.org/course/76) и база питона (stepik.org/course/67)
@TheNevfy
@TheNevfy 2 года назад
@@ivanovnikitok спасибо, добрый человек.... Ваше "только" вызвало улыбку, а сами "только" смех сквозь слезы....жизни не хватит....Но посмотрю все. Спасибо и удачи Вам.
@derafum
@derafum Год назад
Спасибо за видео. Как я могу сохранить нейросеть, чтобы использовать каждый раз без обучения ?
@ivanovnikitok
@ivanovnikitok Год назад
Привет! Можно например использовать joblib или pickle которые просто сохраняют объект python в бинарник, так же в фреймворках (i.e. keras of pytorch) есть встроенная сериализация моделей, что-то типа после обучения вызываешь метод .save() и сохраняешь в файл, а потом с помощью load() восстанавливаешь из файла, легко гуглится serialization keras, serialization pytorch и т.д.
Далее
Китайка и Пчелка 4 серия😂😆
00:19
Calculate TF-IDF in NLP (Simple Example)
8:22
Просмотров 106 тыс.
Naive Bayes 4 Sentiment and Binary NB
8:14
Просмотров 11 тыс.
Mike Tyson
1:01
Просмотров 16 млн
Канело гений тактики #boxing
0:17