Линейная регрессия и L1/L2-регуляризация

Подписаться 4,6 тыс.

Просмотров 6 тыс.

50% 1

Запишетесь на полный курс Машинного обучения на Python по адресу support@ittensive.com
Линейная регрессия в общем виде может быть записана как:
y = a0 + a1*x1 + ... + an*xn
Где y - значение неизвестной величины, а xi - известные параметры.
Одним из вариантов оптимизации гиперпараметров линейной регрессии является отказ от свободного члена (a0), т.е. мы считаем, что зависимый, предсказываемый, процесс полностью определяется независимыми переменными.
Другим вариантом оптимизации гиперпараметров линейной регрессии является регуляризация - т.е. намеренное смещение весов в модели с целью уменьшения статистической ошибки. Естественно, для минимизации весов входные данные должны быть нормализованы.
Коэффициенты ai вычисляются таким образом, чтобы минимизировать ошибку, т.е. минимизировать выражение:
L = Σ(y - yi)^2
А что если в это выражение добавить еще какой-нибудь член, чтобы как-то уменьшить величины коэффициентов ai? Например, вместо L можно было бы минимизировать выражение:
L1 = Σ(y - yi)^2 + λ1*Σ|ai|
или другой вариант
L2 = Σ(y - yi)^2 + λ2*Σ(ai)^2
Что мы здесь сделали? Мы добавили в наше выражение штраф за большие значения ai. И величина этого штрафа пропорциональна величине параметрам λ, с помощью которого мы теперь можем настраивать наш алгоритм.
Первый вариант носит название L1-регуляризация (в английской литературе LASSO regression), второй вариант L2-регуляризация, или регуляризация Тихонова, или гребневая регуляризация (в английской литературе ridge regression).
Совмещая оба этих подхода, получим ElasticNet (эластичную сеть):
L = Σ(y - yi)^2 + λ1*Σ|ai| + λ2*Σ(ai)^2
Поскольку значения λ могут быть произвольными, то обычно проводят "жадный" поиск по логарифмической сетке значений, от 0.01 до 100, а затем уточняют полученную оптимальную пару значений.

Опубликовано:

1 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 12

@justgo3137 3 года назад

Спасибо за понятное объяснение!

@I_Arseniev Год назад

мы получили некое большое положительное значение y-y[i] и хотим его оптимизировать стремлением к минимуму и прибавляем еще одно положительное значение. как это нам поможет?

@gunner1163 2 месяца назад

Тут все просто. Мы минимизируем не только ошибку, но и сумму весов. Модель не сможет уменьшить ошибку, а веса оставить большие, так как эти огромные веса будут приплюсоваться к ошибке, и из-за этого ошибка сама будет большой.