Обучение модели Word2Vec | Обработка естественного языка

Подписаться 130 тыс.

Просмотров 5 тыс.

50% 1

Демонстрация обучения модели Word2Vec на собственных данных с помощью библиотеки Gensim.
00:00 - Подготовка набора данных
01:17 - Обучение модели Word2Vec в Gensim
02:59 - Тестирование обученной модели
05:06 - Сохранение обученной модели
Библиотека Gensim - radimrehurek.com/gensim/index...
Word2Vec в Gensim - radimrehurek.com/gensim/auto_...
Colab ноутбук из видео - colab.research.google.com/dri...
Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
вКонтакте - avsozykin
telegram - t.me/a_sozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs

Наука

Опубликовано:

19 май 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 13

@user-hb6dg7gp3b 8 месяцев назад

Самые полезные 7 минут, которые можно было провести в RU-vid. Спасибо, очень хочется попрактиковаться поскорее))

@user-zj3ih2ux5e Год назад

Спасибо, очень полезно. Однозначно лайк.

@AndreySozykin Год назад

Пожалуйста! Рад, что видео полезно!

@bgdb1gbuz668 4 месяца назад

Подскажите. почему Colab ноутбук из видео выдает ошибку в первой же строке выполнения? note: This error originates from a subprocess, and is likely not a problem with pip. Building wheel for DAWG (setup.py) ... error ERROR: Failed building wheel for DAWG Running setup.py clean for DAWG Failed to build DAWG ERROR: Could not build wheels for DAWG, which is required to install pyproject.toml-based projects

@sergeykartyshov2846 Год назад

Подскажите, пожалуйста, нужно ли при использовании fastText делать токенизацию и лемматизацию при подготовке текста для обучения? Смущает то, что для токенизации используется какая то уже предварительно обученная модель (неважно в NLTK или в spaCy). То есть на новой предметной области эти готовые модели могут давать ошибки при токенизации. Верно ли, что для fastText эти этапы не нужны? (То есть делаем только приведения к нижнему регистру и удаляем знаки препинания и лишние пробелы)

@sergeykartyshov2846 Год назад

Спасибо за лекции! Подскажите, стоит ли использовать для работы с векторами библиотеку spaCy? В лекциях Dr. W.J.B. Mattingly рекомендуется сначала получить вектора в gensim, а потом уже загрузить их в spaCy, но будет ли тогда правильно работать морфологический и синтаксический элементы пайплайна на русских текстах?

@AndreySozykin Год назад

К сожалению, не использовал пайплайны spaCy для русских текстов, поэтому не могу сказать, как это будет работать.

@casino_hacker_777 Год назад

Здравствуйте. Делаю бота для поиска заказов фрилансерам. Есть проблема в определении категорий заказа, хочется написать нейронку для этого какую-то, сам в этом вообще не разбираюсь, подскажите пожалуйста, что посмотреть или почитать для данной задачи

@AndreySozykin Год назад

Можно посмотреть модели Zero-shot classification - huggingface.co/tasks/zero-shot-classification. Это уже обученные модели, которые могут распознавать новые классы, которые не видели в процессе обучения. Если подойдет какая-то из этих сетей, то не нужно будет самому ничего писать.

@user-co7wd3cv4x Год назад

Являются ли СитиБанк и АльфаБанк спонсорами? :)) Столько уже про них хорошего:)

@AndreySozykin Год назад

Хорошая идея, но нет.

@globalnucleartrue Год назад

Непонятно только на что влияет длина вектора. Где подробнее про это посмотреть? Я так понимаю, что на точность значения, но как определить эту длину в каждом конкретном случае? Вот тут 50, там 300, какую выбрать?

@user-hb6dg7gp3b 8 месяцев назад

Скорее всего, вектор из 300 весов будет более точным. Но не факт, что значительно. С другой стороны, модель с векторами по 300 очень тяжелая, и у меня, например, ноутбук в Kaggle её не потянул((