Тёмный

Обучение модели Word2Vec | Обработка естественного языка 

Andrey Sozykin
Подписаться 130 тыс.
Просмотров 5 тыс.
50% 1

Демонстрация обучения модели Word2Vec на собственных данных с помощью библиотеки Gensim.
00:00 - Подготовка набора данных
01:17 - Обучение модели Word2Vec в Gensim
02:59 - Тестирование обученной модели
05:06 - Сохранение обученной модели
Библиотека Gensim - radimrehurek.com/gensim/index...
Word2Vec в Gensim - radimrehurek.com/gensim/auto_...
Colab ноутбук из видео - colab.research.google.com/dri...
Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
вКонтакте - avsozykin
telegram - t.me/a_sozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs

Наука

Опубликовано:

 

19 май 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 13   
@user-hb6dg7gp3b
@user-hb6dg7gp3b 8 месяцев назад
Самые полезные 7 минут, которые можно было провести в RU-vid. Спасибо, очень хочется попрактиковаться поскорее))
@user-zj3ih2ux5e
@user-zj3ih2ux5e Год назад
Спасибо, очень полезно. Однозначно лайк.
@AndreySozykin
@AndreySozykin Год назад
Пожалуйста! Рад, что видео полезно!
@bgdb1gbuz668
@bgdb1gbuz668 4 месяца назад
Подскажите. почему Colab ноутбук из видео выдает ошибку в первой же строке выполнения? note: This error originates from a subprocess, and is likely not a problem with pip. Building wheel for DAWG (setup.py) ... error ERROR: Failed building wheel for DAWG Running setup.py clean for DAWG Failed to build DAWG ERROR: Could not build wheels for DAWG, which is required to install pyproject.toml-based projects
@sergeykartyshov2846
@sergeykartyshov2846 Год назад
Подскажите, пожалуйста, нужно ли при использовании fastText делать токенизацию и лемматизацию при подготовке текста для обучения? Смущает то, что для токенизации используется какая то уже предварительно обученная модель (неважно в NLTK или в spaCy). То есть на новой предметной области эти готовые модели могут давать ошибки при токенизации. Верно ли, что для fastText эти этапы не нужны? (То есть делаем только приведения к нижнему регистру и удаляем знаки препинания и лишние пробелы)
@sergeykartyshov2846
@sergeykartyshov2846 Год назад
Спасибо за лекции! Подскажите, стоит ли использовать для работы с векторами библиотеку spaCy? В лекциях Dr. W.J.B. Mattingly рекомендуется сначала получить вектора в gensim, а потом уже загрузить их в spaCy, но будет ли тогда правильно работать морфологический и синтаксический элементы пайплайна на русских текстах?
@AndreySozykin
@AndreySozykin Год назад
К сожалению, не использовал пайплайны spaCy для русских текстов, поэтому не могу сказать, как это будет работать.
@casino_hacker_777
@casino_hacker_777 Год назад
Здравствуйте. Делаю бота для поиска заказов фрилансерам. Есть проблема в определении категорий заказа, хочется написать нейронку для этого какую-то, сам в этом вообще не разбираюсь, подскажите пожалуйста, что посмотреть или почитать для данной задачи
@AndreySozykin
@AndreySozykin Год назад
Можно посмотреть модели Zero-shot classification - huggingface.co/tasks/zero-shot-classification. Это уже обученные модели, которые могут распознавать новые классы, которые не видели в процессе обучения. Если подойдет какая-то из этих сетей, то не нужно будет самому ничего писать.
@user-co7wd3cv4x
@user-co7wd3cv4x Год назад
Являются ли СитиБанк и АльфаБанк спонсорами? :)) Столько уже про них хорошего:)
@AndreySozykin
@AndreySozykin Год назад
Хорошая идея, но нет.
@globalnucleartrue
@globalnucleartrue Год назад
Непонятно только на что влияет длина вектора. Где подробнее про это посмотреть? Я так понимаю, что на точность значения, но как определить эту длину в каждом конкретном случае? Вот тут 50, там 300, какую выбрать?
@user-hb6dg7gp3b
@user-hb6dg7gp3b 8 месяцев назад
Скорее всего, вектор из 300 весов будет более точным. Но не факт, что значительно. С другой стороны, модель с векторами по 300 очень тяжелая, и у меня, например, ноутбук в Kaggle её не потянул((
Далее
Реинкарнация
00:47
Просмотров 1,3 млн
Word2Vec with Gensim - Python
8:17
Просмотров 58 тыс.
Samsung or iPhone
0:19
Просмотров 7 млн
Apple. 10 Интересных Фактов
24:26
Просмотров 100 тыс.
Вот ЗАЧЕМ здесь ВОДЯНКА?
1:00
Просмотров 263 тыс.