【強化学習】On-policy と Off-policy - 実は定義が曖昧な概念【強化学習の基礎概念】RL vol. 16

AIcia Solid Project

Подписаться 57 тыс.

Просмотров 2,4 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Опубликовано:

30 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 14

@gesonanko6356 4 месяца назад

めっち以前フレンドに上手く説明出来なくてモヤモヤしてた内容だったのでめっちゃ納得しました！ありがとうございます！

@AIcia_Solid 4 месяца назад

げそんさんどうも！ご視聴コメントありがとうございます🤩 いやーーー、もやりますよね、これ😇 この理解ご活用いただけると嬉しいです！とともに、プロの視点からツッコミ発見したりしたらぜひ教えてください！！！

@とおるくん-k7q 3 месяца назад

理学部数学科卒のアラフィフのおっさんです。アナログ世代でこんな動画があったらと思います。外資系製造でファイナンシャルコントローラーしているけど。数学のほうが断然好きです。会計ファイナンスはサラリーマンとして生きていくため仕方なく勉強した。このシリーズハマってます。データサイエンスの仕事したいな。

@AIcia_Solid 3 месяца назад

ご視聴コメントありがとうございます！🎉 実は強化学習は、まだそんなに仕事が多くはないのですが、、、！この先増えると思いますので、先立って勉強しておくのは悪くないと思います！データサイエンスはデータサイエンスでそれなりに泥臭い仕事ではありますが、興味を持っていただいてとても嬉しく感じます！

@jyoan_ai-yy1ip 4 месяца назад

最近機械学習の勉強を始めました。新作の投稿ありがとうございます。応援しております。

@AIcia_Solid 4 месяца назад

ご視聴コメントありがとうございます！🎉 これからも良き動画を生成できるようがんばります！🔥 ともに勉強していきましょー！(^o^)

@nire-hj9pe 4 месяца назад

いつもありがとうございます。まさかそんな野菜と果物みたいなノリだったとは…笑これを念頭に置いてもう一度教科書読んでみます！

@AIcia_Solid 4 месяца назад

そのたとえ素敵ですね🤣 ありがとうございます🥕 この視点で見ると色々理解が深まりやすいと思います(^o^) 是非トライしてみてください！

@otoppi7 4 месяца назад

いつも分かりやすい解説ありがとうございます。On-Policyであることの本質は、次の行動a'までのワンセット（SARSA）でとらえて学習させるかということかなと見ています。次の行動をとらえるには当然それを決める方針が必要で今の行動に対する方針と同一でなければならないのは当然かと。予想すべきは行動ではなく方針だとでも言いたそうな．．．結果的には、よりリスクに敏感で安定した探索が可能だが、遅くなりがち．．．そこを何とかできないものか？

@AIcia_Solid 4 месяца назад

ご視聴コメントありがとうございます！素敵な考察だと思います！次回、n-step TD の話の中で n-step Q 学習を紹介しようと思います。それが On か Off か、自分なりに検討してみていただけると嬉しいです！