Тёмный

“L1和L2正则化”直观理解(之一),从拉格朗日乘数法角度进行理解 

王木头学科学
Подписаться 27 тыс.
Просмотров 7 тыс.
50% 1

L1和L2正则化,可以从3个角度分别理解:
拉格朗日乘数法角度
权重衰减角度
贝叶斯概率角度
3种方法意义各不相同,却又殊途同归

Наука

Опубликовано:

 

3 окт 2021

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 21   
@JAzzNoTE82
@JAzzNoTE82 Год назад
講得太好了,如果要靠自己參透出這幾個不同角度的正則化意義,大概要繞很多路才參透,太感謝了
@haolee630
@haolee630 Месяц назад
您讲的非常好,我认为Lasso形式和拉格朗日函数等价性KKT条件来建立的比如min ||y - Xβ||^2 s.t. ||β||_1 ≤ K的拉格朗日函数: L(β,λ) = ||y - Xβ||^2 + λ(||β||_1 - K),由于KKT条件的松弛互补条件 ,在最优解处,如果λ>0,那么||β||_1 = K,约束条件是活跃的。此时,最小化L(β,λ)等价于: min ||y - Xβ||^2 + λ||β||_1,当λ =0时 约束没有效用。您这样讲拉格朗日函数和lasso形式直接建立联系我觉得有点不太妥当。
@yanyanxu2329
@yanyanxu2329 2 года назад
真的是讲得太好了,收获很大,太感谢了。
@mengchenlo4972
@mengchenlo4972 4 дня назад
非常感謝
@jamesmina7258
@jamesmina7258 Месяц назад
木头哥太牛了。
@lar4853
@lar4853 2 года назад
有料 謝謝!
@Jimmy-wy6fr
@Jimmy-wy6fr 2 года назад
讲得太好了,不火天理难容
@liyangliu8381
@liyangliu8381 Год назад
This is excellent! Thank you, Wang Mutou!
@YANGLU860
@YANGLU860 Год назад
可以 讲得非常清楚
@user-il9vo4dj4e
@user-il9vo4dj4e 2 года назад
讲的太好了,高手才会看的频道
@michelyupeng
@michelyupeng 5 месяцев назад
讲的很好
@zt973
@zt973 2 года назад
這一系列的視頻真了不起,應該獲頒開放式課程最佳教學獎。不禁想問up主,您是看了哪本書之後,做出視頻內容的? 我也想去買您看的書來看。算是做個預習。一邊看書,一邊看您的視頻,相信收穫更大。
@wkaing
@wkaing 2 года назад
其实并不是拿着一本书看完之后做出来视频的,而是心中有一个问题,一边搜索一边终结,然后做出来的
@julianjunyuanfeng3584
@julianjunyuanfeng3584 3 месяца назад
😊​@@wkaing
@xinwang6125
@xinwang6125 2 года назад
真的讲的太好了,非常清楚。 但是我还是有个两个疑问 Question1:为什么我们偏好值小的w?或者说到底为什么要约束w在一个较小的区域内呢? 视频中确实讲到了,但是我还是没全说服,可以再展开说说么?或者什么资料,连接有讲这个? Question2:视频中讲的是说:如果w的值比较大的话,会带来比较大的噪音,在测试集中会带来比较大的偏差。如果这个结论是正确的话,为什么呢?为什么大的w会带来大的噪音和偏差?这个似乎难以理解。如果是线性的,那w增大,必然wx也会增大。可是一般还有非显性的激活函数,并不会导致w越大,噪音和偏差越大。这一点没理解。希望可以再帮我解释下。 Thank you for your amazing work.
@wkaing
@wkaing 2 года назад
其实不是小的W会带来更大的噪声,而是它会把原来比较小的噪声放大了。首先输入的训练集数据里的噪声是恒定的,如果神经网络里面输入的是一个大的W,那么经过神经网络之后,因为W太大就相当于这个噪声的方差就被放大得更多了。
@anonymous1943
@anonymous1943 2 года назад
Large weights tend to cause sharp transitions in the node functions and thus large changes in output for small changes in the inputs. -Page 269 Neural Smithing: Supervised Learning in Feedforward Artificial Neural Networks, 1999.
@RuEramth
@RuEramth 2 месяца назад
其实正则化并不能从拉格朗日乘数法这个角度去做可视化理解 因为新增的约束条件是不确定的 因此你也就没法画出一个具体的可行解的范围 即便你确定了那是一个确定的范围 在你的视频中 你的确说明了那个范围是确定的(即C的值由lambda决定) 但更进一步的 你无法解释为什么得是那个C 关于最后一个问题 似乎作者对于正则化的理解还是有点不足 正则化应该是在保证原损失函数的极小值不受太大影响的前提下再去尽可能减小范数 而这个权重 是人为确定的 如果你把正则项的权重给的很大 那么是会导致损失函数的极值点发生巨大偏移的 只是一般情况下不会给正则项很大的权重罢了 所以你才会觉得这种情况不会出现
@xinwang6125
@xinwang6125 2 года назад
如果从几何图形的角度来理解红色的L(w, r) function 和 绿色的L(w, r) function的话,似乎这两者并不等价。 1:假设针对green L找到了一组最优的w参数 2:此时green L的几何图像中的最优的那条等高线记为high-1。 3:因为最优的w找到了,所以red L function的几何图像也确定了,从而在red L function的那个等高线记为high-2。 4:red L function = green L function + r*C 5:从而必然可以知道high-2 > high-1 意思就是最优的w对应的两个function的等高线不一样。进一步说,red L function很可能有另外一个更优的w使得high-1=high-2 所以我觉得通过green L function的最优w,并不一定是red function的最优w
@anonymous1943
@anonymous1943 2 года назад
人家问的就是 公认最优 问大家如何理解为什么最优…
@nanwang2255
@nanwang2255 2 года назад
我觉得两者的w可以一样,但是超参数可以不一样,
Далее
Lagrange乘數
13:38
Просмотров 89 тыс.
#kikakim
00:20
Просмотров 2,4 млн
Редакция. News: 122-я неделя
44:21
Просмотров 1,4 млн
什么是卷积神经网络?卷积到底卷了啥?
15:56
Difference between L1 and L2 regularization
17:50
Просмотров 2,2 тыс.
сюрприз
1:00
Просмотров 1,6 млн
Поворот смартфона ↩️
0:32
Просмотров 76 тыс.
Спидран по ПК
0:57
Просмотров 27 тыс.