36:05 странный вывод, неужели reward не зависит от параметров модели? То есть функция f(x) не зависит от тета? Если это мгновенный reward то ок, он зависит только от того в каком мы состоянии находимся. Но обычно же вознаграждение считается с учетом будущих reward. Если ориентироваться только на текущий мгновенный reward так тут очевидная стратегия это попытаться подобрать параметры так чтобы попасть в максимальный reward ну или если выбор параметров в параметризационной модели не позволяет попасть точно в точку с максимальный reward, то тогда подобрать параметры так чтобы максимизировать средний ожидаемый reward. Это что именно это и имеется ввиду? Звучит как-то не очень, с учетом того что надо опять же учитывать и будущие reward. Ps кажется разобрался. Вообщем, все верно в видео. Функция f(x) зависит от траектории x, и никак не зависит напрямую от параметра тета, но вот распределение траекторий зависит! Грубо говоря если мы бросаем кубик несимметричный с вероятностями не одна шестая а одна шестая минус тета , а где-то плюс тета, то если наше вознаграждение это выпадение четного числа очков, то это вознаграждение никак не зависит от тета, несимметричности кубика, а зависит только от выпавших очков. Но вот вероятность вознаграждения уже зависит от тета…
Цитирую бро тебя "Значит после того как мы поделили на p мы значит замечаем что вот эта штука да это тоже самое что логарифм что производная логарифма" плз бро после этого вообще слушать не хочется ни чего ! пожалуйста пиши текст за ранее не неси какой то херни, лучше выглядеть так что ты читаешь с бумажки чем выглядеть немного дураком. То что ты обладаешь материалом я не сомневаюсь, но то что ты его сам осознаешь вот это вопрос как минимум лично с моей стороны ) не принимай за хейт плз ))
Если нет вопросов, наверно кране не логично думать что их нет совсем, может стоит предположить о том что люди не могут их во время сформулировать и задать ? Смотрю вот твое видео и мне нравится если чего то кому то не понятно то может стоит уточнить в комментариях ? добрые люди подскажут я так думаю, Ещё очень интересно то что по всей видимости вся нейронка построена на исключительно грязных функциях, "но это не точно"
Здравствуйте. Пытаюсь сделать задание по лекции. Решений вроде бы нет в сети. Споткнулся на этом этапе: # TODO Implement combined function or softmax and cross entropy and produces gradient loss, grad = linear_classifer.softmax_with_cross_entropy(np.array([1, 0, 0]), 1) check_gradient(lambda x: linear_classifer.softmax_with_cross_entropy(x, 1), np.array([1, 0, 0], np.float_)) Нет ли тут ошибки? В данном случае check_gradient всегда проверяет численное значение градиента для компонента с target_index = 1. Но функция check_gradient ничего не знает о target_index и сравнивает численное значение этого градиента с аналитическими значениями градиента и по другим компонентам. И получается, что проверка всегда будет выдавать Gradients are different, если только target_index не равен номеру проверяемого компонента. Не нужно ли функции check_gradient передавать target_index напрямую, чтобы сравнивать только соответствующие значения градиентов? Или я не понял и сделал неправильно.
Не совсем понятно, ок из replay memory набрали батчи, как входы подаём состояния в нейросеть, но как выходы у нас же вектор а вы говорите Y как скалярная величина реварда считается, как рассчитывать ошибку от других действий как сформировать полный вектор Y нейросеть? По сути мы только у конкретного действия вычислили так сказать необходимый ревард, что делать с остальными выходами и непонятно как мы можем заменить в softmax одно из значений не трогая остальные, в сумме они же 1 должны давать или как?
А что если у нас входы в ноду являются зависимыми друг от друга (т.е. в ноде, в которую поступают сигналы x и y есть некоторая неизвестная зависимость y = f(x))? То есть в случае скоррелированности входных сигналов мы не сможем использовать так просто производную сложной функции.
Про метрики важно еще знать: F1 - Equal weight on precision and recall F0.5 - More weight on precision, less weight on recall F2 - More weight on recall, less weight on precision
Объяснение начинается как новичку, а потом резкий скачёк сложности, без объяснений. Если нет бэкграунда работы с нейросетями, курс бесполезен. Советую лучше почитать книгу "Создаём нейронную сеть" Тарика Рашида, её @foo52ru рекомендовал.
Если вырезать все "значит" значит и повторы значит по два раза по два раза и так далее и так далее, то можно можно сделать еще ааа одно полуторочасовое, да? полуторочасовое значит видео про нейросети, да? Ну то есть значит видео ааа видео и так далее и так далее. Спасибо за всё кроме этого )
Скоро потребуется переводчик с суржика на русский, есть такой "ток", есть "лэеры", главное в этом "конволюшене"...кого обычно обзывают "чурками", обычно тех кто плохо говорит на русском языке, думаю большая часть не виновата, ведь это не родной и очень сложный язык, но некоторые родной язык превращают в чурецкий суржик 🤣
Формула для Ф-меры это среднее гармоническое (т.е. обратная величина - среднее арифметическое двух других обратных величин). Другие средние: среднее арифметическое (сумма), среднее геометрическое (произведение).
Курс огнище. Очень хорошая подача, отличный материал. Это лучший онлайн-курс, который я проходила. Отдельно хочется отметить домашки: как же круто в них сделана система самопроверки и постепенного развития сложности. Для курса, без постоянно поддерживаемой инфраструктуры с контестером - очень изящное решение. Одно удовольствие их решать. Спасибо!
Простите, но эта лекция была просто ужасна, у Юрия не получилось толково и доступно объяснить тему speech recognition, но все остальные лекции просто ТОП, Семен - прекрасный учитель, после каждой лекции пользовался статьями, чужим кодом, сам разбирал каждую тему и все получалось
19:44 подскажите пожалуйста! Не понимаю, если в тензоре, как я понял, просто выписываются элементы последовательно в матрицу 1 на 8, то по какому принципу разворачиваются веса в матрицу 2 на 8?
Стоит пояснить, что за функция random в инициализации весов методом Xavier. Веса должны быть нормально распределены с мат ожиданием 0 и дисперсией 2/(in_num+out_num)
Какие хорошие способы представления для многоканального временного ряда есть? Я для себя нашел CWT c morl и MTF. Очень неплохо в CNN это работает. Ещё может что-то лучше есть? GAF преимущества не дал дополнительных. Как правильно CNN совместить c LSTM и attention для таких задач, есть ли вообще в них смысл? Как правильно делать агументацию для временного ряда?
Прикладных примеров не хватает. Голая теория не очень интересна. Нужно прям в коде показать как делается и как работает. Что есть в библиотеках и как пользоваться. Про self-attention хотелось бы подробнее как делать.
Немного не хватает примеров на ты или торсе или керасе. Возникают вопросы, если несколько каналов, как оно изнутри работает и что на выходе. И что задаёт размер lstm слоя, вроде глубину? Ну и там параметры остальные есть интересные, которые на примерах хорошо бы посмотреть. И можно ли делать перемешивание в батче?
Если у меня на входе не 3, а 28 каналов (ну так получилось осле FFT), то мне доступ к предобученным сетям типа VGG зарыт? Или можно как--то извратиться и свести к 3 каналам?
Если на обучающем наборе точность растет, а на тестовом остановилось и не уменьшается, то это переобучение или сеть достигла своих максимальных возможностей в обучении?