Тёмный

GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning 

3Blue1BrownJapan
Подписаться 162 тыс.
Просмотров 127 тыс.
50% 1

この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。
日本語版Twitter
/ 3b1bjp
元チャンネル(英語)
/ 3blue1brown
元動画(英語)
• But what is a GPT? Vi...
Check out our new channel Ufolium
• アメリカ大統領選挙の仕組み
Richard Turner's introduction is one of the best starting places:
arxiv.org/pdf/2304.10557.pdf
Coding a GPT with Andrej Karpathy
• Let's build GPT: from ...
Introduction to self-attention by John Hewitt
web.stanford.edu/class/cs224n...
History of language models by Brit Cruise:
• ChatGPT: 30 Year Histo...
Paper about examples like the “woman - man” one presented here:
arxiv.org/pdf/1301.3781.pdf
unembeddingの訳語
embedding 埋め込み に対してunembeddingの日本語訳が見つけられませんでした。しかしembeddingを埋め込みと呼ぶのに対してunembeddingをそのままにするのは不自然であると思われたため日本語訳を試みました。「逆埋め込み」はこれが厳密な意味で逆の操作になっていないことから却下され、「埋め込み」により意味的に対応する「掘り出し」を採用しました。Xやオフラインでの議論の中でこの訳語の複数の提案がありました。
明確にしておくと、これは現時点で一般的な訳語ではありません(そもそも、現在広く使われている訳語が無いと思われるため何に訳しても一般的ではないと思います)。むしろ、一種の提案として受け取られるものであると思います。
Dall-Eの読み
日本語だと「ダリ」と読まれることが多いですが、この名前は「ウォーリー」と「ダリ」のかばん語で、英語では「ドーリー」ということが多いようです。
----------------------------------------
英語版翻訳元チャンネルの支援
/ 3blue1brown
アニメーションはmanimで作られています
github.com/3b1b/manim
英語版公式ソーシャルメディア
Webサイト: www.3blue1brown.com
Twitter: / 3blue1brown
Facebook: / 3blue1brown
Reddit: / 3blue1brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
vincerubinetti.bandcamp.com/a...
Stream the music on Spotify:
open.spotify.com/album/1dVyjw...

Опубликовано:

 

9 май 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 102   
@yamanekomin
@yamanekomin 2 месяца назад
7:45 1980年代に大学生の僕はそのアプローチでのAIの勉強をしていました。 LISPやPrologなどのプログラミング言語を駆使してモデルを構築しようと試みられた時代です。 当時それらの言語に最適化した専用のコンピュータまで開発されましたが、結局実用的なAIはできなかった。 その頃既にニューラルネットワークの基礎理論はありましたが主流ではありませんでした。 昨今のAIの隆盛を見ると、新しい時代が来たことをしみじみと感じます。 わかりやすい動画での解説ありがとうございます。
@sort35b4
@sort35b4 2 месяца назад
これを見ると全く論理的な思考はしていないのに如何にも正しそうな答えが出てくるのがすごい。 chatGPTが数学苦手な理由がわかる。
@kuniko925
@kuniko925 Месяц назад
わりと回答だけは分かってるときの解説はまし 宿題わからん時に使ってます
@user-zx3bu5cu1e
@user-zx3bu5cu1e Месяц назад
使ってみた感じ、求値問題がわりと問題あると思いました。でも抽象概念の証明などは論理もあってわかりやすく解説してくれます
@user-ki9pl2xg1c
@user-ki9pl2xg1c Месяц назад
実は人間の脳も似たようなモノなんや…
@sort35b4
@sort35b4 Месяц назад
@AkamisoFAKE 使ってみましたがパイソンを駆使して計算してましたね!脅威的です。
@nelnia
@nelnia 2 месяца назад
概念がとてもわかりやすい。CPUよりGPUのような単純大量の計算が得意なチップが 必要になる理由が理解できました。翻訳ありがとうございます
@yongosen
@yongosen 2 месяца назад
ここまでわかりやすい動画と解説を日本語で見ることが出来て嬉しい 日本語訳本当にありがとうございます
@user-ei9pm3zu6b
@user-ei9pm3zu6b 2 месяца назад
このチャンネルがこの動画を出してくれるのはありがたい
@wswsan
@wswsan 2 месяца назад
オリジナルの方を先に見てたからある程度頭に入りやすかった, 聞き落としてる部分多くてまたさらに理解が深まった
@tsurumy
@tsurumy 2 месяца назад
「Unembedding matrix」を「掘り出し行列」と訳しているのが、なんとも数学畑な感じがして興味深いです。 技術畑の人間にとって「embed」は「埋め込み」ではなく「組み込み」のイメージが強いので、原語版を観たときは勝手に「unembedding matrix」を「取り外し行列」と脳内翻訳していました(笑 原語版からわずかな期間での日本語版作成、本当にお疲れ様です。これからも楽しみにしています!
@u7f8au7fbd
@u7f8au7fbd 2 месяца назад
素晴らしすぎる; ;わかりやすい資料ほど英語のものが多かったので、この和訳動画は非常にありがたい; ;
@user-MizumasiGohanKansokusha
@user-MizumasiGohanKansokusha 2 месяца назад
日本語版早くない!? もうできたんか マジありがたし!
@FlawOfEducation
@FlawOfEducation 2 месяца назад
わかりやすい!翻訳ありがとうございます🤗
@hitsuki_karasuyama
@hitsuki_karasuyama 2 месяца назад
翻訳ありがてえ
@kjerome2588
@kjerome2588 2 месяца назад
素晴らしくわかりやすい!感動した!
@user-sr4yi1sr3s
@user-sr4yi1sr3s 2 месяца назад
素晴らしいコンテンツですね。これを翻訳してくた貢献度は爆大
@pikarin7401
@pikarin7401 2 месяца назад
英語の見てても理解半分だったので助かります!
@yuseikanayama3571
@yuseikanayama3571 22 дня назад
素晴らしすぎる動画です ありがとうございます
@Ran21050
@Ran21050 2 месяца назад
まじでありがたいです次もたのむ🙏🙏🙏🙏🙏
@mtaka84219
@mtaka84219 2 месяца назад
理解できる限界を遥かに超えてるけど、なんとなく面白い。
@ai2012
@ai2012 2 месяца назад
わかりやすすぎる
@shiro_teacher
@shiro_teacher 2 месяца назад
最高の教材
@Ejaau
@Ejaau 2 месяца назад
わかりやすい動画をありがとうございます
@mizuchin36
@mizuchin36 2 месяца назад
興味深いです!
@user-if9jh9jv5u
@user-if9jh9jv5u 2 месяца назад
トランスフォーマーの説明が分かりやすすぎて泣いた
@KI-kr1mu
@KI-kr1mu Месяц назад
世界一わかりやすいです
@niruru9560
@niruru9560 2 месяца назад
Attension解説楽しみにしています
@pamiamin
@pamiamin 2 месяца назад
素晴らしかった
@kazuhisasaotome2462
@kazuhisasaotome2462 2 месяца назад
ありがたい
@inpoolbar3795
@inpoolbar3795 2 месяца назад
神ですね🙏✨🦋ありがとうございます🙇‍♀️🙏🫧
@user-ff4qp5lr7b
@user-ff4qp5lr7b Месяц назад
わかりやすい。感謝します。
@user-wl7uy6ux8r
@user-wl7uy6ux8r 2 месяца назад
神動画
@XYZ_cycle
@XYZ_cycle 2 месяца назад
人間が言語を扱う上でどういった処理をしているかを数値化すると例えばこういう表現になるんすね この翻訳動画も担当するヒトが何等かのアルゴリズム使って作り上げてると言い換える事もできるとか どうしても出来ない場合は近いものに置き換えるとか
@mejiro9506
@mejiro9506 2 месяца назад
まってました
@user-cv6cz9xs3z
@user-cv6cz9xs3z 2 месяца назад
内積を二つのベクトルがどれくらい揃っているかを表す尺度とすると、内積はベクトルの大きさにも依存するので17:33のような比較には向かないかと思うのですが、実際には正規化など行われているのでしょうか? 数学には自信がなく、誤っていたらすみません。ベクトルの大きさが意味することがわかると理解できるかもしれませんし、次回も楽しみです!
@owata1942
@owata1942 Месяц назад
22:21 ソフトマックス関数が量子力学の各エネルギー固有値に粒子が存在する確率を表す関数p_i=exp(-βE_i)/(Σexp(-βE_i) と完全に同じ形なのおもろい
@user-ec3yd7un9t
@user-ec3yd7un9t Месяц назад
よくこんなの思いつくな、 発想がすごいと思ってたら コメにいる賢者たちのおかげで 昔から研究されてきた分野なのだと 知ることができた。 仕組みも規模もすごすぎる。
@ariakia-rs2lh
@ariakia-rs2lh 2 месяца назад
21:30 Unembedding matrix(アンエンべディングマトリックス)を表現行列ってどこかで言ってたのを見たような聞いたような…。忘却の彼方。
@mash9118
@mash9118 2 месяца назад
まさか内部でこんな計算をしてたとは…(慈悲)
@ms-pv2og
@ms-pv2og 23 дня назад
わかりやすい説明ありがとうございます! トークンの確率分布デコーディングの入力は何ですか? 質問の仕方がおかしかったり、意味が不明瞭でしたらご指摘願います 次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています) 1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み 2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み 3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
@ms-pv2og
@ms-pv2og 23 дня назад
わかりやすい説明ありがとうございます! トークンの確率分布デコーディングの入力は何ですか? 質問の仕方がおかしかったらご指摘願います 次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています) 1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み 2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み 3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
@Ran21050
@Ran21050 2 месяца назад
だいすき
@yukikotanaka3685
@yukikotanaka3685 Месяц назад
15:45 ヒトラーを足すとかいうパワーワードで笑ってしまった
@ms-pv2og
@ms-pv2og 23 дня назад
わかりやすい説明ありがとうございます! トークンの埋め込みとトークンの確率分布へのデコーディングについて以下の質問させてください 質問がおかしかったら無視していただいても平気です 以下の理解でいいでしょうか? 1 トークンの埋め込み層は、文脈がちがっても同じ埋め込みが作成される? その場合、IDはvlookupみたいに検索して返される形式がある? または行列の掛け算で埋め込む? 2 そうではなく、事前学習時に、埋め込み部分も学習しているので、文脈に応じて違う埋め込みになるでいいでしょうか? 3 エンコーディングとデコーディングの重みは、特に転置すれば同じになるようなものでなく、全然別物である
@ms-pv2og
@ms-pv2og 23 дня назад
わかりやすい説明ありがとうございます! トークナイザーについて以下の質問させてください 1 文章をトークンに分けてIDを割り振るものをすべてトークナイザーと言える。 なので、名刺は1、形容詞は2と品詞毎にIDを割り当てるだけのものもトークナイザーと言えるという理解でいいでしょうか? 2 Unigramなどでは、実質的に頻度が低い単語等は同じトークンIDに割り振られる(つまり同じ埋め込みになる)という理解でいいでしょうか?   つまり、世の中のトークンナイザーでかっこう、違う単語が同じトークンIDに割り振られるものが存在する
@Arsche
@Arsche 2 месяца назад
ときに、深い思想を表現してるって思うのは受け手側の勘違いなのかもね
@keyting2
@keyting2 2 месяца назад
次の単語を生成するのにlogitsを参照して変換して使用されているのは分かったけど さらに次の単語を生成する際に直前のLogitsは再利用できるのかしら それによって計算速度が圧倒的に変わりそうだけど
@saeye2073
@saeye2073 2 месяца назад
それはできないと思います。1単語生成したら、それを入力列に加えてデコーダを最初の段から再び通して別の確率分布を生成する必要があります。そのとき得られる分布の形状は直前の単語ときのものとは全く異なるものです。
@cisnks1862
@cisnks1862 2 месяца назад
それがビームサーチなんじゃないの?
@hatsuyuki3965
@hatsuyuki3965 2 месяца назад
Key Value Cacheのことかな?
@donguri356
@donguri356 2 месяца назад
QueryとValueを直接比較せずに間にKeyを入れる理由がよくわかりませんでした。つまり softmax(Q 転置K)V を もっと簡単にQ 転置V みたいな感じにしたらうまくゆかないのでしょうか? ド素人の質問ですみません、誰か教えてください。
@donguri356
@donguri356 2 месяца назад
すみませんQ 転置V だと結果の次元数が変わってしまいますのでsoftmax(Q 転置V)Vとすべきでしょうか?? やっぱり難しそうですね~
@user-ii2ng5ig5w
@user-ii2ng5ig5w 2 месяца назад
おもしれえええええ
@user-fq8hp1jx7y
@user-fq8hp1jx7y 2 месяца назад
ソフトマックス関数がカノニカル分布っぽいなーと思ってたら温度が出てきて興奮した
@Arsche
@Arsche 2 месяца назад
でも、それはそれで、何やら哲学的な意味がありそうな気がする
@mizuchin36
@mizuchin36 2 месяца назад
日本語の解析が難しいのは言葉の含みが深いからなのかなぁ🤔 文脈によっての意味が他の言語よりも複雑とかなのかな。
@gutsnosada
@gutsnosada Месяц назад
日本語がハイコンテクストというのはちゃんとした研究ではあまり支持されていないようです。 どちらかというと、文末だけで肯定否定がひっくり返るのが厄介そうな気がしますね
@shotglass8735
@shotglass8735 2 месяца назад
数学の部分は分からなかったけど、イメージは掴めたと思う つまりChatGPTは文章を生成する仕組みと同じアプローチで質問に答えている訳か
@hellohello-kl1cx
@hellohello-kl1cx 2 месяца назад
次トークン予測の精度向上だけで様々な自然言語処理タスクが解けるようになったのは凄いですよね
@kozkoz1
@kozkoz1 2 месяца назад
過去のデータから経験的に多かったパターンを抽出するのでは、革新的な発見は難しいような気がします。そこに人間的な知性の価値が残りそうな。
@kijobreunig3607
@kijobreunig3607 2 месяца назад
非常にいい視点だと思います。ご指摘のように、観測データ内で発見できないような新理論は、Transformerからは生まれてこないと考えるのが合理的です。例えばアインシュタインの特殊相対性理論などは観測から構築された理論ではないですよね。 一方で、観測データは膨大にあるのに理論が完全に構築できていない分野は実はものすごくたくさんあります。 自然科学の分野では1922のリチャードソンの気象予測から約100年ほどかけて少しずつ気象予測のモデルを開発してきましたが、完璧な予測理論は構築できていません。(天気予報がはずれるのが根拠です)ところが、2017年に生まれたTransformerのモデルが、この伝統的な気象モデルの性能を上回ってしまいました。GraphCastと検索するとその結果が見れると思います。コメント主様が提起することの復唱となりますが、データがあるけど人間が扱えきれていない分野においてTransformerの適用可能性が高い、しかしそうでない分野も同じくらい多く存在するということです。
@kozkoz1
@kozkoz1 2 месяца назад
数学的カオスとかカタストロフィーのような不連続な現象をTransformerが上手く処理できるか、気になる。
@user-xw3lq1gi1l
@user-xw3lq1gi1l 2 месяца назад
いいね
@applepi314root
@applepi314root 2 месяца назад
温度のパラメータそこに意味があったのか...、
@EobardUchihaThawne
@EobardUchihaThawne 2 месяца назад
it is how random the output is, if i am not wrong they divide last output by temperature
@user-pl3vi9be6f
@user-pl3vi9be6f 2 месяца назад
ベクトルの向きが同じであるほど、単語の意味に関わってくるのが面白い! 内積を使って、ベクトルの向きが似ているか判断してるんだね 王ーX=男ー女 これをXについて求めると、女王が推測できることとか不思議だ
@rararaiton7741
@rararaiton7741 Месяц назад
AIに携わる人が人がめちゃくちゃ頭いいということだけはよぉーくわかった。
@kazutoasai2487
@kazutoasai2487 2 месяца назад
なんかこれって、言語のニュアンスとか、記憶を思い出す時の直感と同じじゃない?
@raba-340
@raba-340 2 месяца назад
これを、考えてないと断じていいかどうかがよく判らない 脳だって分析したら、そんなの何も考えてないとしか思えない仕組みかもしれない
@MikuHatsune-np4dj
@MikuHatsune-np4dj Месяц назад
これは本当に「AI」と呼ぶにふさわしいシロモノなのだろうか?
@kazutoasai2487
@kazutoasai2487 2 месяца назад
何となくだけど、、、、、これ脳じゃね?
@user-bu6qx9zp4h
@user-bu6qx9zp4h 2 месяца назад
"ニューラル"とある通り、脳の神経伝達を参考にモデル化したものです。脳の研究(マカロックピッツさんなど)を機械学習に導入したらうまく行ったので今みんな使ってるわけですね
@tnkats16000
@tnkats16000 2 месяца назад
なるほど全然わからん
@kazutoasai2487
@kazutoasai2487 2 месяца назад
風が吹けば桶屋が儲かるの、まだ未発見のパターン見えるやんけ。
@user-bl2zf2mh3g
@user-bl2zf2mh3g 2 месяца назад
gpt-3のパラメータ数って大体判明したんですか?未知数だと思ってました
@hamachi5342
@hamachi5342 2 месяца назад
GPT-3はOpenAIがまだオープンだった時代のものなので、大体公開されています。 パラメータ数がわからないのはGPT4です。 【訂正】GPT-3.5はパラメータ数は公開されてました。
@sasensui1000
@sasensui1000 2 месяца назад
素人がアルゴリズムの仕組みを理解するのにはクオリティの高いハウツー 学習モデルの作成そのものは Pythonの基本的ノウハウがあれは ライブラリにある学習モデルのインスタンス化一行で済むほどに作成自体は簡単 パラメーターを弄る必要すらない 問題は大規模学習するだけのハードとデータが無い 泣笑
@kanda-japan
@kanda-japan Месяц назад
フローチャートにしたら脳の意思決定にGPTは近づいているな。
@hellohello-kl1cx
@hellohello-kl1cx 2 месяца назад
当たり前なんだけど、アーキテクチャやトレーニングデータによってそのモデル全体が扱う言語空間がバラバラだから、なんか上手く統合できないかね
@user-GottDerMoralUndEthik
@user-GottDerMoralUndEthik 2 месяца назад
いわゆる天才が、周りに理解されなくなるのは たぶん脳内に複数の追加の次元を持っていて、ソレは本人としては当たり前で 凡人の扱ってる平面に投影しないで喋ると、聞き手は理解できない ってことなのではないかと妄想した 私は仕事中、中学生相手を仮想してコミュニケーションするけど わりと大事だったのでは
@user-hp7yp3bt3x
@user-hp7yp3bt3x Месяц назад
これは君向けの動画じゃないよ。勝手に被害者ぶるのやめてね
@user-GottDerMoralUndEthik
@user-GottDerMoralUndEthik Месяц назад
@@user-hp7yp3bt3x 被害者?誰が誰の被害者?
@user-risemara-shitai
@user-risemara-shitai Месяц назад
@@user-hp7yp3bt3x?天才を殺す凡人とかよく言うやん
@user-pn6ss4dv8j
@user-pn6ss4dv8j Месяц назад
へ〜聞けば聞くほど訳わかんないな つまり、ドーナツになぜ穴が空いているかってのと同じ⁉︎
@ronrei
@ronrei 2 месяца назад
こんな複雑な演算の結果が#援○とか投稿させられるインプレゾンビなのか...
@Surimi_KNight_San
@Surimi_KNight_San 2 месяца назад
じゃあなんで間違ってもちゃんと理解してくれるんだろうか
@hellohello-kl1cx
@hellohello-kl1cx 2 месяца назад
人が入力するプロンプトを?
@user-nk9kq3xo6z
@user-nk9kq3xo6z 2 месяца назад
その間違え方にすら大量の前例があるからじゃないの?
@blue_sky1016
@blue_sky1016 2 месяца назад
これ見てる人、教養のあるレベル高い人ばかりなんだろうなぁ。 無知なので、この動画の説明にはついていけませんでした😅
@blue_sky1016
@blue_sky1016 2 месяца назад
@@kzrnm ありがとうございます。議論できるだけの知識を持ち合わせておりません。お恥ずかしい限りです。。
@user-hm5vm3do6v
@user-hm5vm3do6v Месяц назад
最初の五分だけだけど超基礎的な知識は淫夢で知ってたの恐ろしすぎる
@user-kb4ex9oz9r
@user-kb4ex9oz9r 2 месяца назад
脳は似たようなことをしているわけか
@kazutoasai2487
@kazutoasai2487 2 месяца назад
なんかそう思えてきたよね。
@kiwisq
@kiwisq 2 месяца назад
直訳しすぎじゃね?
@loveHF13
@loveHF13 2 месяца назад
今日はこれでいいや
@kaj694
@kaj694 2 месяца назад
猛者
@shimesabadesu
@shimesabadesu 2 месяца назад
一番えぐいコメは自ずとコメ欄の底へ沈む。
@user-ck5mu6mg3s
@user-ck5mu6mg3s 2 месяца назад
@@shimesabadesudeepすぎる
@YTP-np8ql
@YTP-np8ql 2 месяца назад
パイクリーチャーかわいいよね
@xxmeguxx7424
@xxmeguxx7424 2 месяца назад
transformerの断面図イイよね
@user-xy2cm6id2z
@user-xy2cm6id2z Месяц назад
神動画
Далее
SCRUB: SpaceX Attempt One - Starship Flight Test
9:9:58
Xiaomi 14 Ultra Teardown.
20:57
Просмотров 328 тыс.
畳み込みの仕組み | Convolution
22:17
Просмотров 119 тыс.