Отличное видео! Но к сожалению я не нашел ответа на вопрос с которым сюда пришел... Хотелось бы пруфов, что в большинстве случаев совместный минимум MSE и L1 лежит в вершине, а не ребре.
Спасибо за видео. У меня возник вопрос такой - если сложить два слагаемых с MSE и регуляризатором то получится какая-то другая функция чем та которая сгруппирована. Почему вы рассматриваете два лосса независимо друг от друга?
Рассмотреть два лосса просто оказалось удобно в рамках данной задачи. Для L2 регуляризации можно показать (раскрыть скобки лосса и перегруппировать слагаемые), что линии уровня тоже будут эллипсы и притом с центром на линии между центрами эллипсов MSE и кружков от регуляризации
Теоретически такое возможно, но вероятность этого равна нулю. На практике, учитывая конечность float32 это не столь невероятное событие, но всё ещё маловероятное
Нет, добавление регуляризации (что эквивалентно переходу к условной минимизации) как раз позволяет выбрать из бесконечного количества решений одно единственное - с минимальной нормой. Так удобно думать в первом приближении, хотя справедливо не во всех случаях (и без регуляризации решение может быть единственно, и с ней может быть не единственно, ...)
@@leshanbog тада картинки нарисованы не оч понятно. Я полагаю кстати слово регуляризация подразумевает добавление регулярного члена к случайной функции стоимости. Тем не менее великолепный урок. Спасибо.
@@grigogiyreznichenko2033 В более широком смысле, регуляризацией называют все техники, которые помогают избежать переобучения (например, Dropout или просто добавление данных). Я про это упоминаю в ролике про регуляризацию в линейных моделях. Спасибо за фидбек :)
Спасибо огромное за видео, у меня вопрос. Ведь может так произойти, что точка касания линий уровня лосса с l2 регуляризатором произойдет в нуле для одной из осей. В этом случае тоже признаки занулятся?
Спасибо за отзыв :) Допустим веса двумерные. Тогда MSE как функция от весов для фиксированного объекта (x, y), где двумерный вектор x=(x1,x2), будет выглядеть как то так: (w1*x1 + w2*x2 - y)^2. То есть это многочлен второй степени от весов. Если просуммировать по объектам, то он все ещё многочлен второй степени от весов. Линии уровня получаются, когда мы приравниваем это выражение константе. Оно будет задавать уравнение эллипса ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B8%D0%B2%D0%B0%D1%8F_%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D1%80%D1%8F%D0%B4%D0%BA%D0%B0#%D0%9A%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F_%D0%BA%D1%80%D0%B8%D0%B2%D1%8B%D1%85_%D0%B2%D1%82%D0%BE%D1%80%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D1%80%D1%8F%D0%B4%D0%BA%D0%B0_%D0%BE%D1%82%D0%BD%D0%BE%D1%81%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%BE_%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B9_%D0%B8%D0%BD%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D0%BD%D1%82%D0%BE%D0%B2
Капец, эту штуку не мог понять, а ты прям так ровно и последовательно разъяснил, что и вопросов не осталось... Извини за личный вопрос, ты работаешь в DS? Я просто пока учусь на 3м курсе в МГУ, но хочу параллельно трудоустроиться в DS
@@leshanbog Круто, посмотрел твое интервью, кстати, очень круто ты за жизнь разъясняешь. Сейчас пока готовлюсь, слышал, войти в ДС сложно, может у тебя есть какая-нибудь стоящая информация по рынку найма в DS на текущие дни? Хочется понять, как трудоустроится как можно скорее(при всех должных знаниях и навыках естественно)