Thank you for your watching and comment!🎉 In the paper, the authors say that they use parallel corpora of translation. (e.g. En. Fr.) I think they trained the model by next word prediction task with that data. If you still have question, feel free to ask me again! Thank you!!🎉 Neural Machine Translation by Jointly Learning to Align and Translate arxiv.org/abs/1409.0473
ご視聴コメントありがとうございます! なるほど!素敵な質問ですね! 当時の Encoder-Decoder model は、Encoder の RNN で作ったベクトルを Decoder に1つ渡すというのが主流でした。 なので、(当時は)普通はやってることが入ってないじゃん! というテンションです。 Transformer の登場以降、Attention is All You Need 的な世界観に変容したので、 もはやモトスタさんの言うように、c_i 経由だけで良くない?という感覚に変わったのだと思います。 素敵な指摘ありがとうございます! 質問の回答になりましたでしょうか? もしまだ疑問あれば、追加で質問くださいませ!