Тёмный

Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов 

Andrey Sozykin
Подписаться 131 тыс.
Просмотров 18 тыс.
50% 1

В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - www.asozykin.ru/courses/nnpython
Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага:
1. Токенизация - разделение текста на отдельные части: символы, слова, предложения.
2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding).
Предварительно обученные плотные векторные представления слов:
1. GloVe (Global Vectors) - nlp.stanford.edu/projects/glove/
2. Word2Vec, Google - code.google.com/archive/p/wor...
3. FastText, Facebook - fasttext.cc
Плотные векторные представления слов для русского языка:
1. RusVectōrēs - rusvectores.org
2. RUSSE (Russian Semantic Evaluation) - russe.nlpub.org/downloads/
Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - www.microsoft.com/en-us/resea...
Как можно поддержать курс:
1. Яндекс Кошелек - money.yandex.ru/to/4100142982...
2. PayPal - www.paypal.me/asozykin
Заранее спасибо за помощь!
Добавляйтесь в друзья в социальных сетях:
вКонтакте - avsozykin
Instagram - / sozykin_andr
Facebook - / asozykin
Twitter - / andreysozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs

Наука

Опубликовано:

 

23 авг 2019

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 40   
@user-rt1dt5kx3p
@user-rt1dt5kx3p 2 года назад
Спасибо. Отличная лекция
@stanislavk5609
@stanislavk5609 3 года назад
Благодарю. Вы молодец. Предельно ясно объясняете.
@AndreySozykin
@AndreySozykin 3 года назад
Спасибо!
@maximfamille2184
@maximfamille2184 4 года назад
Спасибо Вам за труд! Очень познавательно, интересно, качественно и в ногу со временем. С удовольствием смотрю весь Ваш контенте!
@AndreySozykin
@AndreySozykin 4 года назад
Спасибо за приятный отзыв!
@rockyjudson799
@rockyjudson799 3 года назад
a trick : you can watch series on Kaldrostream. I've been using them for watching all kinds of movies these days.
@finnesteban2313
@finnesteban2313 3 года назад
@Rocky Judson Yea, I've been watching on kaldrostream for since december myself :)
@rogeliocarson2325
@rogeliocarson2325 3 года назад
@Rocky Judson yea, I have been watching on Kaldrostream for months myself :D
@franciscohen1299
@franciscohen1299 3 года назад
@Rocky Judson definitely, I've been using KaldroStream for years myself =)
@sergafanasiev7956
@sergafanasiev7956 4 года назад
Заочно лайк под каждым видео
@AndreySozykin
@AndreySozykin 4 года назад
Спасибо!
@tymurkr
@tymurkr 9 месяцев назад
Какие кодировки символов сразу поддерживают числовую запись, и надо ли делать для каждого числа в номере входной нейрон?
@Legantmar
@Legantmar 4 года назад
спасибо за видео. не хватает примеров. есть вопрос, не по теме: есть набор перемешанных русских слов (парсинг сайта стихов), как можно выделить среди них: местоимения, глаголы, прилагательные и существительные? у кого есть какие идеи?
@flaxmychannel
@flaxmychannel 4 года назад
Spacy
@AndreySozykin
@AndreySozykin 4 года назад
Примеры будут в отдельных видео. В одно невозможно все включить, получится слишком длинно. Определять части речи умеет mystem - yandex.ru/dev/mystem/doc/grammemes-values-docpage/
@Legantmar
@Legantmar 4 года назад
@@AndreySozykin спасибо за ответ
@Legantmar
@Legantmar 4 года назад
@@flaxmychannel спасибо, посмотрю
@me2beats313
@me2beats313 4 года назад
👏
@AndreySozykin
@AndreySozykin 4 года назад
Спасибо!
@RustemShaimagambetov
@RustemShaimagambetov 4 года назад
Когда будут следующие видео?
@AndreySozykin
@AndreySozykin 4 года назад
Вышло сегодня - ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-_ncjDruwCJU.html
@RustemShaimagambetov
@RustemShaimagambetov 4 года назад
Andrey Sozykin огонь!!
@RustemShaimagambetov
@RustemShaimagambetov 4 года назад
🔥🔥🔥
@valle8336
@valle8336 4 года назад
Дайте письменные тексты
@denkos6365
@denkos6365 2 года назад
Находка прям
@user-pd8hf4ub3x
@user-pd8hf4ub3x Год назад
для английского языком это может подойдёт, но для русского нет. Английский язык очень статичный и там нельзя менять слова местами.
@user-lf4qm1od6x
@user-lf4qm1od6x 4 года назад
Можно как-нибудь эмоциональнее, говоришь как зомби, невозможно что-то так понять
@alexandr.novoselov
@alexandr.novoselov 4 года назад
Включи TV, там и эмоционально и все понятно.
Далее
ОВР Шоу: Русская баня @TNT_television
12:06
Мой странный компьютер 2024
18:33
wyłącznik
0:50
Просмотров 23 млн
Apple watch hidden camera
0:34
Просмотров 52 млн
Мой странный компьютер 2024
18:33