разве при решении примера нет ошибки? разве мы наоборот не должны учитывать наилучший суммарный вариант для 5 миллиона? тогда мы должны придти в это состояние, так как моментальная награда в состоянии 1 лучше чем в состоянии 3, но потенциальная суммарная будущая награда при выборе состояния 3 выше чем при выборе состояния 1, и уравнения бельмана вроде как решаются с конца(начинаем из состояния где известно максимальное вознаграждение).Иначе получается что у нас не учитывается ни прошлое ни будущее, максимум на 1 шаг вперед смотрим.
Ищу способ как сделать прибыльного бота для торговли криптовалютой и изучаю ваши видео. И тут на 5 минуте 40 секунде вы рассказываете про инвестора Сашу. Что это если не судьба?