【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】

AIcia Solid Project

Подписаться 57 тыс.

Просмотров 39 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

29 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 105

@moumou1414 Месяц назад

一般人が疑問に思っているところをちゃんと疑問としてくれてることろが素晴らしいです！

@AIcia_Solid Месяц назад

ご視聴コメントありがとうございます！！！何を隠そう！！！私が混乱しまくったので！！！！！！！！！（笑）同じ混乱に陥る人が減ることを祈ります🙏 ご視聴コメントいただきありがとうございました！

@RivusVirtutis 6 месяцев назад

本当に素晴らしい。わかったつもりで流していた部分の解像度が千倍上がりました。

@AIcia_Solid 6 месяцев назад

ご視聴コメントありがとうございます！🥰🎉🎉🎉 そう言っていただけるととても嬉しいです！ぜひこの理解をご活用くださいませ🤩🎉

@ツナマヨ-h1o 2 года назад

word2vecを使っている身ですが、知らないことが多く恥ずかしいです。とてもわかりやすかったです、他の動画も見ます。ありがとうございました！

@AIcia_Solid 2 года назад

ご視聴コメントありがとうございます！！お役に立てれば良かったです😊 ぜひ他の動画もご活用くださいませ🤩🎉

@adgj-e4m 7 месяцев назад

高評価100回押したいくらい分かりやすい！！

@AIcia_Solid 7 месяцев назад

ご視聴コメントありがとうございます！！！🎉 そう言っていただけるととても嬉しいです🤩🎉🎉🎉 でも！高評価はぜひ奇数回押してください！😋

@kochikyushu 3 года назад

神動画．この動画だけで十分理解できてしまう

@AIcia_Solid 3 года назад

でしょでしょー😎✌️ ぜひいろんな人に紹介してください😋

@Pondsnail_22 Год назад

わかりやすすぎて驚いてる

@AIcia_Solid Год назад

でしょ😎✌️

@皐月陽咲 2 года назад

自然言語処理始めて注意2で詰まっていたので、すごく納得しました（➰〰➰）ﾉありがとうございます

@AIcia_Solid 2 года назад

そうなんですよーーーーー！！！私も大混乱しました😭😭😭 お役に立ててよかったです😊

@j-phoenixresearchinc.5618 3 года назад

素晴らしい！！

@AIcia_Solid 3 года назад

でっしょー！😍😍😍🎉🎉

@あそく-g8m 3 года назад

はじめまして。いつもわかりやすい動画ありがとうございます。CBOWについての質問です。中間層では入力層のV次元ベクトルに(h × V)行列を掛けると書いてありますが、高校時代に行列の掛け算というのは(1,V)×(V×h)のような計算はできても(1,V)×(h×V)という計算はできないという風に習った記憶があります。今回はベクトル×行列なので上記のルールは適用されないのでしょうか？数弱すぎて初歩的な質問になってしまい申し訳ありません。

@AIcia_Solid 3 года назад

ご質問ありがとうございます🎉 日本語の表現なので微妙なところですが、行列が左、（列）ベクトルが右の順でかけることを想定していますので、 (h, V) x (V) の形で問題ないかと思います！ 24:25 くらいに出てくるのは実際に W_I e_i の順になっています！

@あそく-g8m 3 года назад

@@AIcia_Solid 回答ありがとうございます！なるほど！スッキリ出来ました！ほんとにありがとうございます。これからも勉強頑張ります

@カラフル-v6k 3 года назад

今回の動画も分かりやすかったです！ありがとうございます！！されていたら申し訳ないのですが、Doc2Vecについても解説して欲しいです！

@AIcia_Solid 3 года назад

ご視聴コメントありがとうございます！😍 doc2vec は再来週辺りに公開予定です😎✌️

@カラフル-v6k 3 года назад

本当ですか！？！めっちゃ楽しみです😄！！！

@鶴井博理 9 месяцев назад

たいへん勉強になります。ありがとうございます。1つ質問です。18分頃から出てくるｈX V行列は具体的にどのような行列になりますか？

@AIcia_Solid 9 месяцев назад

ご視聴コメントありがとうございます！おそらく、W_I のことですよね？この役割については、 21:51 2-7 学習結果から分散表現を手に入れるあたりから話してありますが、こちらを見ていただいた上で疑問があるということでしょうか？もう少し疑問を詳しくお教えいただけますと助かります。よろしくおねがいします！

@mirai6964 2 года назад

わかりやすい！

@AIcia_Solid 2 года назад

でしょ！🤩

@tomo-op3ys 5 месяцев назад

negative samplingについて教えてください。正例と負例のうち、負例は説明の通りでわかったのですが、正例がわかりませんでした。これは、そもそも学習の時にインプットと合わせてモデルに与える(w_tは〇〇だよと)という理解で合っていますでしょうか？

@AIcia_Solid 5 месяцев назад

ご視聴コメントありがとうございます！正例は、元にしているデータから作れます。 CBoW なら、文章データのまんなかの1単語を隠して当てさせていますので、隠した単語を用いればそれが正例になります。これで疑問は解けますでしょうか？まだ謎がありましたら遠慮なく聞いて下さい！

@tomo-op3ys 5 месяцев назад

@@AIcia_Solid はい！ありがとうございます！

@jazz-kt4ui 3 года назад

「面白い、わかりやすい、深い」が見事に実現されていますね。日本語が分かって本当によかったと毎回感じさせてもらっています(日本人ですが）。お願いとしては、「Alciaからみた大学入試問題の風景」のシリーズなどはご無理でしょうか？答えを出すための解法動画は他にもありますが、もっと高みから見たものをAlciaさんに解説していただけると、すばらしいと思います。現在かなりコアな方が対象になっていますが、中高校生から社会人までどーんと日本中でAlciaファンが増えるのではないでしょうか。こちらのチャンネルの１ファンとして是非そうなって欲しいと思います。長文失礼しました。

@AIcia_Solid 3 года назад

いつもご視聴いただいてありがとうございます😊 日本語コンテンツを増やすことが私の活動の中で大事なことのひとつですので、そういっていただけると非常にうれしいです🎉 高校数学の魅力も、いつかやってみたいと思ってます！🔥 少しずつやってみようと思います😊

@manbodama 3 года назад

現役高校生からもお願いします。

@uxl4iz739 3 года назад

分かりやすかったのでいいね7回押しました!

@AIcia_Solid 3 года назад

わーい！奇数回！さすがです😎✌️

@j-phoenixresearchinc.5618 3 года назад

よくわかりました！！

@AIcia_Solid 3 года назад

それはよかったです！！！😍🎉🎉🎉

@NISHI000d 3 года назад

動画乙。自然言語処理は疎くて、word2vecって、ベクトル化程度にしか記憶してなかったけど、よくわかりました。次回も期待。

@AIcia_Solid 3 года назад

いつもご視聴ありがとうございます(^^) ぜひお楽しみに😎

@hiroyukippp7380 3 года назад

自分が修士の時に、SOMの改良版で文書分類してたんですが、Word2Vecなかったんですよね。

@AIcia_Solid 3 года назад

なんと、そうなんですね！！この領域はほんとに進化が早いですよね、、、！😮

@redwellnoise Год назад

動画ありがとうございます。勉強させていただいています。 1つ質問させてください。 25分あたりでW_I=(V1, V2......Vv)と説明されていますがこれは図でいうと以下のように単語ごとのベクトルが縦に入っているという理解であっているのでしょうか。　v_1 = wt-cのone hotベクトル　v_2 = wt-1のone hotベクトル

@AIcia_Solid Год назад

ご視聴コメントありがとうございます！🎉 素敵な質問ですね！ v_1, v_2,... は、w_t のベクトルとは異なります。分析の前に、登場する単語リストを作り、その1番目の単語のベクトルが v_1、2番めの単語のベクトルが v_2、、、という感じです！伝わりますでしょうか？もし疑問が残っていたら遠慮なく聞いてください！

@redwellnoise Год назад

@@AIcia_Solid ご返信ありがとうございます。登場する単語のリストという部分ですが、以下のどの解釈になりますでしょうか。 1.予測する単語が含まれる文章に登場する単語 2.対象言語が持つ単語リスト（動画内で数万〜数十万と言ってるもの） 3.上記どちらでもない

@AIcia_Solid Год назад

2です！

@redwellnoise Год назад

@@AIcia_Solid なるほどです。教えていただいた情報を頭に入れてもう一度見返してみます。かわいいかわいいアイシアちゃんありがとー！

@AIcia_Solid Год назад

ぜひぜひ！🤩 また分からない事があれば是非質問してください！🎉

@ねげろん 2 года назад

いつも分かりやすい動画を生成いただきありがとうございます！ようやく NLP 編に追いつきました… (NLP だけに) 1点質問させていただきたいですのですが, 学習の高速化のところで「高速化なし (現実的ではないとのことですが)」「hierarchical softmax」「negative sampling」それぞれについて, 同一の単語でも取得できる分散表現は結果が異なりそうな気がしているのですが理解あっておりますでしょうか？またその場合, どの手法が分散表現の結果が人間の理解に近しいものなのかという観点での研究結果はございますか？ NLP を勉強し始めたばかりの初心者質問で申し訳ございませんが, ご回答いただければ幸いです。

@AIcia_Solid 2 года назад

ご視聴コメントありがとうございます！(^o^) 良い質問ですね😎 高速化を変えたら分散表現も変わります！それはご想像のとおりです！どれが人間と近いかという研究は、、、私はあまり知りません🙇‍♂️ でもあるかもしれません！論文を探してみると良いかと思います！

@ねげろん 2 года назад

@@AIcia_Solid お返事いただきありがとうございます！ 1点目については自分の認識通りで安心しました！ 2点目については論文を調べてみることにします！

@anco_tappuri 3 года назад

数学が超弱い私でも分かりやすく、ちゃんと深く解説されていて面白かったです！質問なのですが、高次元を学習させるデメリットは、計算量が膨大になる、ベクトルが冗長(疎)になることで精度が悪化する、過学習しやすい等があるのかなと思ったのですが、他にもあるのでしょうか？また、この現象に名前は付いてますか？(調べ方が分かりませんでした...)

@AIcia_Solid 3 года назад

ご視聴コメントありがとうございます😍😍😍 ぜひ「高次元統計」で検索してみてください！色々出てきます、、、、、！😱

@sushisushi8362 3 года назад

面白かったです!2つ質問があります。①単語分散表現を得る手法として、cbowとskipgramはどっちが良いのでしょうか？ ②hierarchical samplingとnegative samplingはどちらがよく使われますか？

@AIcia_Solid 3 года назад

ご視聴コメントありがとうございます！🍣🍣🍣 こういうのは全部データ次第ですので、気になる場合は4つ全部試して比較していいやつ使うのがいいと思います(^^) gensim の default が CBOW と negative sampling なので、これがふつうなのだろうなーとは思います。ちなみに、私も、hierarchical softmax と negative sampling なら、 negative sampling の方が数理的な挙動が良さそうなので好きです(^^)

@ken8392 3 года назад

すごくためになりました！ひとつ最後のNegative samplingについて質問です！ Negative SamplingのモデルとしてはCBOWとskip-gramのどちらの場合でもsoftmaxの部分がロジスティック回帰になっていると考えて大丈夫でしょうか？

@AIcia_Solid 3 года назад

ご視聴コメントありがとうございます！その通りです！😋

@ken8392 3 года назад

@@AIcia_Solid ありがとうございます！

@yukio_takagi6429 3 года назад

非常に分かり易かったです。毎回、ありがとうございます。1つ質問させてください。分散表現を横に並べたW_i は学習により求めると理解しました。ただその場合、特にskip-gramでは必ずしもW_iは予測精度の観点からみると適切ではない、でも分散表現としては適切となるでしょうか？分散表現をどのようにして得るのかを知りたいです。

@AIcia_Solid 3 года назад

> 予測の観点からみると適切ではない？適切かどうかは、問題設定によると思います。分類問題としては、正解率1%程度が関の山なので、あまりよくないといえるかもしれません。 > 分散表現はどう得る？これは動画で話してるので、再度みてみてください！

@tigaglitter3833 2 года назад

随分と前のコメントですが、私も同じような疑問を持ちました。収束しないような学習をさせているにも関わらず、どうして得られた分散表現重みW_i は最適な次元圧縮を学習できていると言えるのかイマイチ腑に落ちません。

@AIcia_Solid 2 года назад

収束はするとは思いますよ！ただが良くないだけで🤔

@tigaglitter3833 2 года назад

@@AIcia_Solid お返事ありがとうございます。甘えた質問ばかりで申し訳無いんですが、skip-gramによって[he]のその後2単語を予測するとき恐らく(0.51, 0.49)みたいな(とりあえず一番損失が少ない)出力をする形で学習は収束する。加えて予測精度が良かろうが悪かろうがW_iは、 W_womenよりもW_manとの内積が大きくなるようなベクトル　を出力できるように学習していくため期待されるような分散表現を獲得できる。という解釈はおかしいですか？

@AIcia_Solid 2 года назад

だいたいその解釈で良いかと思います！

@yuta-br8uu 2 года назад

すごい分かりやすかったです！けど数学のところが... 機械学習および自然言語処理をやるうえで大学1.2年で習った数学の知識全部必要でした💦 こんなの何に使うんだよ！！早くプログラミングやらせろ！！とか言ってた2年前の自分を殴りたいです😭

@AIcia_Solid 2 года назад

そーなんですよ、めちゃ使うんですよー😮 ただ、逆に、ほぼそれしか使わないので、それだけやっちゃえば楽ですよ😋 必要にかられた時の方が勉強早かったりしますし、取り組んでみたら良いと思います(^o^)

@AA_31415 2 года назад

いつもありがとうございます！ 17:44 h×vのhは2c個の単語の単語数で最大でも2cという認識であっていますでしょうか？

@AIcia_Solid 2 года назад

いえ、h は単語埋め込みの次元で、2c とは別物です！

@AA_31415 2 года назад

@@AIcia_Solid ありがとうございます。 one-hotベクトルを次元数が低い密なベクトル(h×v)に変換してるという事だと思うのですが、hはどのように決定しているのでしょうか？

@AIcia_Solid 2 года назад

h は勘と経験で適度に決めます🤤 だいたい数百くらいが多い気がします！

@AA_31415 2 года назад

@@AIcia_Solid ありがとうございます😋 他の重みのようにhを更新していくアルゴリズム?もあるのでしょうか？それとも、例えば木モデルのmax_depthのように何パターンか試すのでしょうか？そうではなく、変更してもそこまで影響がないので決めうちでいくのでしょうか？何回も質問してすいません🙇🏻‍♂️

@AIcia_Solid 2 года назад

質問はやりたいだけやってください！(^o^) h はハイパーパラメーターなので、色々試して探索する感じになります。一言で言える感じではないですが、数値変えると色々変わるので、各種影響見ながら調整して決めていく感じです！(^o^)

@ky5802 2 года назад

NLPは疎いのですが凄くためになりました！ありがとうございます． CBow(encoder)とskip-gram(decoder)を組み合わせてautoencoderのように(skip-gramの入力はCBowの出力のon-hot vector)再構成誤差が小さくなるように学習すると，更に潜在変数空間がうまく学習できるのでは？と思いました．画像系とはやはり違うのですかね？パラメータ数が大きくなりすぎるのでしょうか

@AIcia_Solid 2 года назад

ご視聴コメントありがとうございます！うーん、、、。 AutoEncoder 的なので、圧縮効率は良くなる気もします（どう効率を定義するかの問題はありますが）。ただ、単語演算などの性質はどの程度残ってくれるのかは非自明な気もします🤔🤔🤔 実際に実験してみるのが一番良いかと思います！

@kenshinakaima5184 3 года назад

いつもめちゃくちゃ勉強になってます！ありがとうございます！いいね２回押しました！ちなみにfasttextのご紹介などもご検討いただけたりしますでしょうか？ fasttextも上記のような形で学べたらテンソン上がりすぎていいね４回押しちゃうと思います！

@AIcia_Solid 3 года назад

押すなら奇数回にしてくださいー！／(^o^)＼ fasttext もそのうちやる予定です！しばしお待ちを😍🎉

@emty. Год назад

質問2件です (1/2) CBOWで2C個の平均を取っているのは、W_t-c〜W_t-1、W_t+1〜W_t+cの平均が大体W_tを表すベクトルになるんじゃない？という気持ちなのでしょうか？ (2/2) CBOWがお勉強して賢くなると、W_I行列がブラッシュアップされて、結果として分散表現が上手くなるという雰囲気なのでしょうか？

@AIcia_Solid Год назад

ご視聴コメントありがとうございます！どちらも yes です！そんな気持ちで計算されています！🔥

@emty. Год назад

@@AIcia_Solid 返信ありがとうございました。気持ちがよく分かりました！AttentionのEncoderに雰囲気似ていますね。引き続き動画シリーズ拝見して参ります。いつもありがとうございます。

@AIcia_Solid Год назад

それは良かったです！！🎉 まさに、Attention の Encoder は、word2vec の非線形版ですし、その感覚はめちゃ正しいと思います🤩🎉

@ST-qy6bj 3 года назад

注目単語から周辺単語を予測する条件付き確率ってどうやって計算するのでしょうか。

@AIcia_Solid 3 года назад

ご視聴コメントありがとうございます！しかしこれは、どういう意味の質問でしょうか、、、？予測値であれば、 skip-gram の softmax （やその軽量版）の出力がそのまま条件付き確率のようなものになりますが、、、！

@manbodama 3 года назад

ニューラルネットワークで次元を圧縮して特徴量を抽出する。発想としてはオートエンコーダと似てて、それの発展みたいな感じかな。しかしまあ、よくこんなの思いつくもんだ。

@AIcia_Solid 3 года назад

ですよね😮 すごい人もいるものです😍

@manbodama 3 года назад

skipgramがさすがに適当過ぎて圧縮できればおkと言われても感覚的には無理がある気がするしcbowがあるなら全部それでいいじゃんって思っちゃうけど、実際cbowよりskipgramの方が有利な場合や使われる場合ってどんなケースがあるんだろ。

@AIcia_Solid 3 года назад

skipgram のテキトーさはやばいですが、 cbow と入出力が逆になっているだけですし、単語の分散表現獲得ではこれでいいのかもしれません😮 私はもうそこにストレスを感じないからだになってしまったので、ぜひ M S K さんに探求していただきたいです😍

@ogurahiroto9591 2 месяца назад

3:55

@AIcia_Solid 2 месяца назад

ご視聴コメントありがとうございます😊✌️

@GL-Kageyama2ndChannel 3 года назад

アイシアさーん。この動画から、動画タイトルのナンバリングがズレてませんかー？この動画は、【ディープラーニングの世界 vol. 21】のはず。

@AIcia_Solid 3 года назад

ほ、ほんとだ、、、😮 ありがとうございます！なおしました！😍🎉 ちなみに私はアイシアです😋

@GL-Kageyama2ndChannel 3 года назад

@@AIcia_Solid すみません。私の方にも、ミスがありましたね笑😁

@AIcia_Solid 3 года назад

おあいこということで😊

@sage_goes1504 2 года назад

hierarchical softmax がマジでわからん logV回の2分類はどれとどれを分類するんだ？ 2分類をlogV回繰り返して最終的にV分類するためには、単語を完全2分木の葉にして根からたどることになるはずだけど、完全2分木は誰が作るの？

@AIcia_Solid 2 года назад

その完全2分木も、なんかいい感じの方法で作成されます😋 原論文や、そこで引かれている論文に書いてありますので、ぜひ見てみてください！🎉

@sinuture 3 года назад

ふぎゃぁあ（分かった）

@AIcia_Solid 3 года назад

いえええええい！（うれしい😊）

@サカナクッション-l1j Год назад

もうめちゃくちゃ単純なことがわからない、Vとhってどれ、なんのことですか😢

@AIcia_Solid Год назад

ご視聴コメントありがとうございます🎉 V は単語数で、h は単語ベクトルの次元です！書いてあったり、喋ってたりするので、ぜひもう一度見返してみてください！(^o^)

@LS-ez7li 3 года назад

skip-gramだと出力のそれぞれの単語に対して予測確率が同じになってダメダメという話がありましたが、出力のそれぞれに対する予測を独立に行っているだけであって、分類精度を平均するとCBOWと同じようなものではないのでしょうか。分類精度を高くするというのが直接の目的ではないのはその通りだと思うのですが、skip-gramがCBOWよりもダメなモデルであるというのは誤解を生むのではないかと思います。実際skip-gramの方がよく使われていると思います。

@AIcia_Solid 3 года назад

ご指摘ありがとうございます！ skip-gram が次単語予測器として強くはないとは話していますが、 CBOW との比較はたぶんしてないと思います！（していたら教えてください🙇‍♀️🙇‍♀️🙇‍♀️）

@LS-ez7li 3 года назад

@@AIcia_Solid skip-gramのところにだけ分類精度が低いという注意書きがあったのと、その前に出力のそれぞれに対して同じ予測をする、というのを合わせて聞くと、skip-gramの方が悪いという風に聞こえてしまいました。

@AIcia_Solid 3 года назад

ありがとうございます！たしかに、それだとそう見えてしまうかもしれません、、、ご指摘ありがとうございます！以後気を付けて発信していきます！🔥