Спасибо за данный курс лекций! На русских просторах, без преувеличений, это лучший разбор нейронных сетей. Наткнулся на Вас случайно, изучая нейронные сети на Хабре. Теперь планирую так же просмотреть Ваш более новый курс "Deep learning на пальцах".
Таймкоды: 0:00 - Начало 0:43 - Повторение (Линейный классификатор, градиентный спуск) 2:41 - Loss-function (свойства, какой должна быть) 8:52 - Принцип максимального правдоподобия 14:03 - Вопросы (не было) 15:16 - Softmax 23:54 - Объединение loss-функции и softmax 26:00 - Дополнительная литература 27:54 - Вопросы
15:35 Что в данном примере является сэмплами? Какие-то картинки/их векторное представление из нашего изначального набора? Если да, то по какому признаку они располагаются на поверхности нормального распределения?
Не очень понял вопрос. Сэмплами являются картинки, их представлением - вектор из значений каждого пикселя. Мы предполагаем, что распределение этих векторов - какой-то многомерный гауссиан
Подскажите пожалуйста где найти задания. Перешел по ссылке на github, но не могу скачать файл с заданием. Это означает, что курс уже завершен и я не могу получить к нему доступ или просто необходимо выполнить какие-то доп условия (например получить специальное приглашение или вступить в какое-то сообщество)
Правильно ли я понимаю, что p(data) есть произведение вероятностей (которые посчитала наша модель) для правильного (заданного в датасете) класса для каждого сэмпла (элемента в датасете)? Т. е. если брать до преобразования в вероятность, то это просто перемножение элементов (с индексом правильного класса; один элемент для каждого вектора) результирующих векторов. Если это так, то для меня это было не совсем очевидно. Т. е. такое предположение появилось сразу, но волшебных слов, которые бы превратили предположение в уверенность, я для себя не услышал. Возможно, стоило сделать маленький пример рассчёта на трёх сэмплах с тремя фичами. В любом случае спасибо за классное разжёвывание.
Не понял почему на 13:30 формула для Negative Log-likelihood называется кросс-энтропией. Смущает, что в кросс-энтропии должно быть еще умножение на y: y*log(p(c=yi|xi)
В этом упрощенном выводе y всегда равен 0 или 1, так как в лейблах указан только один класс. Поэтому более общая формула cross-entropy становится просто ln(c=yi|xi), где yi - класс, у которого вероятность 1 (а у остальных для этого примера - 0).
Вопрос. Как я понял, в начале X - это одна картинка, который разделен на пиксели, и их 3072. А затем что из себя представляют весы w, и почему их 3072*10?
Вектор w определяет нормаль к гиперплоскости, отделяющей один класс от всех остальных. 10 векторов означают 10 гиперплоскостей, по одной на каждый класс.
@@sim0nsays Я тоже не увидел в этом видео вывода производной softmax функции. В курсе CS231n выводят производную другой функции - SVM. Можете подсказать где все же увидеть вычисление градиента для именно этой softmax?
Я правильно понимаю, что мы можем применить ln (p (data)) - потому что ln - это монотонное преобразование и оно не меняет задачу максимизации? И, в принципе, мы можем применять любые удобные нам монотонные преобразования для p(data)? А ln берём как самый удобный в вычислительном плане?
Да, и ещё в прошлой лекции говорилось, что ln позволяет произведение вероятностей рассмотреть как сумму вероятностей, что проще (комментарий скорее для самого себя, нежели для автора)
В смысле, что такое производная и с чем ее едят? Это надо вводный курс про матанализу. В посте на Хабре был хороший коммент со списком курсов: habr.com/post/414165/#comment_18784361