【強化学習】TD法 - 期待と不安が交じるベルマン作用素のデータ近似【強化学習の基礎アルゴリズム】RL vol. 13

AIcia Solid Project

Подписаться 57 тыс.

Просмотров 3,8 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

30 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 19

@小野賢一郎 7 месяцев назад

これからどんどん楽しくなりそうですね！期待値あげて、楽しみに待ってます！ささやかながら、ご飯代にどうぞ。

@AIcia_Solid 7 месяцев назад

ありがとうございます！！！！！🥰🥰🎉🎉🎉 いつもご支援いただき本当に助かります。ありがとうございます！これからまたじゃんじゃん出していきますので、ぜひお楽しみにしていてください！私も良き動画を生成できるよう精進します！🔥 いつも本当にありがとうございます！！！🎉

@niruru9560 7 месяцев назад

γとかαをAdamのような方法で調整ができれば、ひっぱられる問題を軽減できそうな気がしました。

@AIcia_Solid 7 месяцев назад

ご視聴コメントありがとうございます！🎉 面白い発想ですね！🎉 今後紹介予定の深層強化学習では、Adam などもよく用いられるので、学習率の動的調整はよく応用で使われてると思います！ γについては私は存じないですが、小さいγから徐々に大きくするカリキュラム学習的な発想はあるのかな？などと想像しました。興味に応じて調べてみるとよいかと思います！

@nire-hj9pe 6 месяцев назад

なるほど～、式の読み方の解説ありがとうございます

@AIcia_Solid 6 месяцев назад

ご視聴コメントありがとうございます！今後もバンバン動画を出していきますので、ぜひ続きもご覧ください🥰

@kentoo_1 7 месяцев назад

1回から見始めてようやく追いつけました！ TD誤差がマイナスになることはありますか？

@AIcia_Solid 7 месяцев назад

ご視聴コメントありがとうございます！はい、もちろんマイナスになることもあります！設定によりますが、基本的にはプラスもマイナスも同じように登場します。

@kentoo_1 7 месяцев назад

変なデータは、良い方策ではないにも関わらずまぐれでゲームをクリアできてしまった時みたいな感じですかね

@AIcia_Solid 7 месяцев назад

こちはもありがとうございます😊 変なデータは色んなパターンがあります。たまたままぐれでクリアできた場合もそうですし、パラメタの初期化の都合でたまたま V の推定値が大きい / 小さいこともあったり、実務データならバグ由来の外れ値データだったり、色んなパターンがあるかと思います😊

@青野俊夫-y7q 6 месяцев назад

いつもながら分かりやすい説明ありがとうございます。「Vπ(s)よりr+Vπ（S')の方が精度高いと思っている。けど自信ないからα倍して変化減らしている」のあたりが印象的でした、Vπ(S)の分布を事前分布、r+Vπ（S')をデータとみなすと、Vπ-new(S)は事後分布。という風にBayes感覚で理解することもできるのでしょうか？そういえば、Vπ(S)は「平均値」。リスクを回避したい時の強化学習では、95%分位点とか、99.999%分位点のVπ(S)が大事になるのかな、、などと想像しました。

@AIcia_Solid 6 месяцев назад

ご視聴コメントありがとうございます！🥳 そうおっしゃっていただけるととても嬉しいです！🎉 Bayes 的感覚、面白いですね！！！素敵な質問ありがとうございます！！！！！実は、価値関数（等）を点推定ではなく分布で推定する分布強化学習 (Distributional Reinforcement Learning) という分野があります。あまりそちらには詳しくないのですが、調べてみたらその解釈を活用している手法などもあるかもしれません👀 もしなにか面白いものを見つけたら教えていただけるとうれしいです！(^o^)

@青野俊夫-y7q 6 месяцев назад

@@AIcia_Solid ご返事ありがとうございます。キーワードとして頂いた「分布強化学習」の調査は未着手ですが、なんとなく、データ同化(EnKFや粒子法)のようなアルゴリズムになるのかなー　と漠然と考えました。オン/オフポリシーをどう考えるか？も関係しそうに思えますので、Q学習/SARSAのご説明も楽しみにしております。

@AIcia_Solid 6 месяцев назад

分布強化学習は扱うときが来るかは未定です！今後も色々出していきますので、ぜひお楽しみに！🎉

@青野俊夫-y7q 6 месяцев назад

ご丁寧にありがとうございます。❤

@otoppi7 7 месяцев назад

TD法のハイパーパラメータであるTDステップ数についての言及が欲しかったです。

@AIcia_Solid 7 месяцев назад

ご視聴コメントありがとうございます！ステップ数は、n-step TD 的なことでしょうか？であれば、Q 学習と SARSA の後に扱いますので、ぜひお楽しみにしていてください！（もし別のものを指している場合、私の不勉強で知らない可能性がありますので、そのときはお教えいただけますと非常に助かります！🙇‍♀️🙇‍♀️🙇‍♀️）

@otoppi7 7 месяцев назад

その通りNステップTD法のことです。1ステップずつブートストラップするTD(0)法とモンテカルロ法の中間的な手法で、オフライン学習用の手法です。最適なステップ数は通常5ステップとしているものが多いようです。

@AIcia_Solid 7 месяцев назад

なるほど、承知しました！ステップ数の使われ方もお教えいただきありがとうございます！🎉 それでは、もう少しお待ちいただけると助かります！ぜひお楽しみに！🥳🥳🥳