Лекция 2.1 - Softmax

sim0nsays

Подписаться 12 тыс.

Просмотров 17 тыс.

50% 1

Видео Поделиться Скачать Добавить в

Слайды: www.dropbox.com/s/sxj3wqzrep4...

Опубликовано:

5 авг 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 23

@IvanTsarevich 5 лет назад

"Сейчас я допишу бесконечный ряд и отпущу вас на перемену.." 😊

@user-vk8zn1mq6i 4 года назад

Спасибо за данный курс лекций! На русских просторах, без преувеличений, это лучший разбор нейронных сетей. Наткнулся на Вас случайно, изучая нейронные сети на Хабре. Теперь планирую так же просмотреть Ваш более новый курс "Deep learning на пальцах".

@leoromanovich 6 лет назад

Таймкоды: 0:00 - Начало 0:43 - Повторение (Линейный классификатор, градиентный спуск) 2:41 - Loss-function (свойства, какой должна быть) 8:52 - Принцип максимального правдоподобия 14:03 - Вопросы (не было) 15:16 - Softmax 23:54 - Объединение loss-функции и softmax 26:00 - Дополнительная литература 27:54 - Вопросы

@user-bv2nt5vr4y 4 года назад

15:35 Что в данном примере является сэмплами? Какие-то картинки/их векторное представление из нашего изначального набора? Если да, то по какому признаку они располагаются на поверхности нормального распределения?

@sim0nsays 4 года назад

Не очень понял вопрос. Сэмплами являются картинки, их представлением - вектор из значений каждого пикселя. Мы предполагаем, что распределение этих векторов - какой-то многомерный гауссиан

@user-qc7pp7on8n 3 года назад

Подскажите пожалуйста где найти задания. Перешел по ссылке на github, но не могу скачать файл с заданием. Это означает, что курс уже завершен и я не могу получить к нему доступ или просто необходимо выполнить какие-то доп условия (например получить специальное приглашение или вступить в какое-то сообщество)

@Mohenti 6 лет назад

Правильно ли я понимаю, что p(data) есть произведение вероятностей (которые посчитала наша модель) для правильного (заданного в датасете) класса для каждого сэмпла (элемента в датасете)? Т. е. если брать до преобразования в вероятность, то это просто перемножение элементов (с индексом правильного класса; один элемент для каждого вектора) результирующих векторов. Если это так, то для меня это было не совсем очевидно. Т. е. такое предположение появилось сразу, но волшебных слов, которые бы превратили предположение в уверенность, я для себя не услышал. Возможно, стоило сделать маленький пример рассчёта на трёх сэмплах с тремя фичами. В любом случае спасибо за классное разжёвывание.

@sim0nsays 6 лет назад

Ага, перемножение результирующих элементов выхода softmax для каждого из сэплов. Ок, учту, спасибо!

@LordKSAsk 5 лет назад

Не понял почему на 13:30 формула для Negative Log-likelihood называется кросс-энтропией. Смущает, что в кросс-энтропии должно быть еще умножение на y: y*log(p(c=yi|xi)

@sim0nsays 5 лет назад

В этом упрощенном выводе y всегда равен 0 или 1, так как в лейблах указан только один класс. Поэтому более общая формула cross-entropy становится просто ln(c=yi|xi), где yi - класс, у которого вероятность 1 (а у остальных для этого примера - 0).

@user-zx4ct2dg7y 4 года назад

Вопрос. Как я понял, в начале X - это одна картинка, который разделен на пиксели, и их 3072. А затем что из себя представляют весы w, и почему их 3072*10?

@Vladyorsh 4 года назад

Вектор w определяет нормаль к гиперплоскости, отделяющей один класс от всех остальных. 10 векторов означают 10 гиперплоскостей, по одной на каждый класс.

@muslapute2889 6 лет назад

hello, what is softmax derivative please ? (for calculating diagrant descent of my output)

@sim0nsays 6 лет назад

I'm calculating it during the video, but you might need to know Russian to follow it

@mastrepad 5 лет назад

@@sim0nsays Я тоже не увидел в этом видео вывода производной softmax функции. В курсе CS231n выводят производную другой функции - SVM. Можете подсказать где все же увидеть вычисление градиента для именно этой softmax?

@sim0nsays 5 лет назад

@@mastrepad Все это время давал неправильную ссылку, сорри! ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Q7V3SkBd9jM.html (Таймстемп важен)

@mephistotel87 5 лет назад

Я правильно понимаю, что мы можем применить ln (p (data)) - потому что ln - это монотонное преобразование и оно не меняет задачу максимизации? И, в принципе, мы можем применять любые удобные нам монотонные преобразования для p(data)? А ln берём как самый удобный в вычислительном плане?

@sim0nsays 5 лет назад

Victor Malov да, именно так

@8dimaximym8 2 года назад

Да, и ещё в прошлой лекции говорилось, что ln позволяет произведение вероятностей рассмотреть как сумму вероятностей, что проще (комментарий скорее для самого себя, нежели для автора)

@zuenko007 6 лет назад

А можно ссылку на подсчет производной?

@sim0nsays 6 лет назад

В смысле, что такое производная и с чем ее едят? Это надо вводный курс про матанализу. В посте на Хабре был хороший коммент со списком курсов: habr.com/post/414165/#comment_18784361