Лучшее на RU-vid
Кино
Авто/Мото
Видеоклипы
Животные
Спорт
Игры
Приколы
Развлечения
Хобби
Наука
Авторизоваться
Зарегистрироваться
【強化学習】TD(λ) - 短期と長期の目線の合せ技。【強化学習の基礎アルゴリズム】RL vol. 18 #185 #VRアカデミア #ReinforcementLearning
18:16
【深層学習】 CNN 紹介 "ResNet" 言わずとしれた CNN の標準技術が登場!【ディープラーニングの世界 vol. 17】#080 #VRアカデミア #DeepLearning
24:41
КОГДА К БАТЕ ПРИШЕЛ ДРУГ😂#shorts
00:59
Каха и лужа #непосредственнокаха
00:15
#JasonDeruloTV // Dress 👗 #GotPermissionToPost From @lirika.vesa #MakeMeHappy
00:39
На кого пойти учиться?
00:55
【強化学習】n-step TD 法 - 一番使われる基礎的手法だよ【強化学習の基礎アルゴリズム】RL vol. 17
AIcia Solid Project
Подписаться 57 тыс.
Просмотров 2,8 тыс.
50%
1
Видео
Поделиться
Скачать
Добавить в
Наука
Опубликовано:
30 окт 2024
Поделиться:
Ссылка:
Скачать:
Готовим ссылку...
Добавить в:
Мой плейлист
Посмотреть позже
Комментарии :
7
@poco_cpp
2 месяца назад
n-stepが不安定になる理由ですが、メインの理由は分散ではなく分布シフトが原因ですね。 なので分布シフトが発生しないオンポリシーな手法(SARSA等)だとnを大きくしても安定して学習できます。 逆にオフポリシーが含まれる手法の場合は分布シフトが発生するのでnを少しでも大きくするとすぐ不安定になったりします。 (retrace関係の論文に詳しく書かれています)
@poco_cpp
2 месяца назад
これは私の勝手な想像ですが、以下のような歴史がある気がします。 ・古典強化学習ではn-stepの不安定さが分散だと思われていた ・深層強化学習が発達(ここで古典強化学習から10年以上は時代が進んでいる) ・オフライン強化学習という分野が出てきて学習の不安定さが本格的に研究されだした →分布シフトについても研究が進む ・n-stepの不安定さが分布シフトに基づくものだとして解決策が編みだされた なのでかなり最近出てきた考え方だと思っています。
@AIcia_Solid
2 месяца назад
なるほど!そうなんですね! ありがとうございます!!!!! 最近の研究は全然知りませんでした、、🙇♀️ たしかに、SARSA は安定するけど Q はシフトがあって不安定というのは、とても良く分かります。 なんの Q を推定してるのか、よくわからないですものね、、、。 ありがとうございます! 後々のシリーズで補足入れようと思います。 私もとても勉強になりました。 ありがとうございました!!!!!
@miniyosshi
2 месяца назад
このシリーズ溜めててやっとここまでたどり着きました。QとSARSAの良しあしはサンプル効率など説明があったと思いますが、Vを使うTDとQを使うQやSARSAの良しあし(あるいは使い分け)みたいな部分はどうなんでしょうか~?
@AIcia_Solid
2 месяца назад
ご視聴コメントありがとうございます! 例外はありますが、基本的には Q か使われる印象です。 ただ、将棋 AI や囲碁 AI など、行動の後の状態が確定している場合は、Q ではなく V が使われています。 そのような違いと認識していますが、実践経験はほぼないので、現場では違う使い分けもあるかもしれません。 実際にやるときは分野の慣習を参考にすると良いと思います!
Далее
18:16
【強化学習】TD(λ) - 短期と長期の目線の合せ技。【強化学習の基礎アルゴリズム】RL vol. 18 #185 #VRアカデミア #ReinforcementLearning
Просмотров 1,3 тыс.
24:41
【深層学習】 CNN 紹介 "ResNet" 言わずとしれた CNN の標準技術が登場!【ディープラーニングの世界 vol. 17】#080 #VRアカデミア #DeepLearning
Просмотров 28 тыс.
00:59
КОГДА К БАТЕ ПРИШЕЛ ДРУГ😂#shorts
Просмотров 3,4 млн
00:15
Каха и лужа #непосредственнокаха
Просмотров 6 млн
00:39
#JasonDeruloTV // Dress 👗 #GotPermissionToPost From @lirika.vesa #MakeMeHappy
Просмотров 7 млн
00:55
На кого пойти учиться?
Просмотров 132 тыс.
40:51
【LIVE】Discovering Preference Optimization Algorithms with and for Large Language Models #VRアカデミア
Просмотров 2,1 тыс.
31:49
【特異値分解⑦】ランダム行列と深層学習 - 勾配消失・爆発の原因の1つです!【行列30 ランダム行列と深層学習】 #186 #VRアカデミア #線型代数入門
Просмотров 2,2 тыс.
3:33:23
GEOMETRIC DEEP LEARNING BLUEPRINT
Просмотров 202 тыс.
3:37:32
Machine Learning & Neural Networks without Libraries - No Black Box Course
Просмотров 580 тыс.
27:14
How large language models work, a visual intro to transformers | Chapter 5, Deep Learning
Просмотров 3,5 млн
9:40
【強化学習】強化学習は行動選択の科学である【広大な分野だけどコアはこれ!】RL vol. 1 #151 #VRアカデミア #ReinforcementLearning
Просмотров 17 тыс.
3:05:09
【完全版/最新版】この動画1本でGoogle Apps Script(GAS)の基礎を習得!忙しい人のための速習コース
Просмотров 383 тыс.
2:31:15
【500万再生突破!】橋本幸治の理系通信【傑作選】 :次世代電池 半導体 AI プログラミング 新技術 EV
Просмотров 6 млн
3:51:00
🔥Google Cloud Platform Full Course | Google Cloud Platform Tutorial | Cloud Computing | Simplilearn
Просмотров 323 тыс.
3:52:49
Wolfram Physics Project: Working Session Wednesday, Apr. 29, 2020 [Finding Black Hole Structures]
Просмотров 383 тыс.
14:18
Купил вслепую RTX 3060 на Авито и прилип! 🤬
Просмотров 18 тыс.
6:47
НЕ РАБОТАЕТ ПОСЛЕ СЦ / Колонка Perfeo Telamon
Просмотров 48 тыс.
0:44
Лучшие расширения для твоего браузера!
Просмотров 438 тыс.
0:36
Keyboard Cleaning Hack
Просмотров 19 млн
0:22
Машина от xiaomi su 7 взбесилась #xiaomi #su7
Просмотров 15 тыс.
0:51
Самый быстрый интернет #связь #казахстан #5g
Просмотров 624 тыс.
0:27
🤔[В Названии iPhone Нет Смысла, И Вот Почему]📱🍏
Просмотров 18 тыс.