深度学习|正则化方法笔记

能解决过拟合的方法都叫-正则化
L1和L2正则化只针对W进行正则化,减少过拟合,重点还是W。
权重W,可以理解为一个高维的向量,也可以理解为高维空间中的一个点,这个点到原点的距离,这个距离如果是欧氏距离,就是L2范数,高维的勾股定理得到的。
深度学习|正则化方法笔记
文章图片

深度学习|正则化方法笔记
文章图片

深度学习|正则化方法笔记
文章图片

p大于等于1的时候,构成这个集合才是一个凸集,可行域是凸集的话,对应的是一个凸优化问题,凸优化是一个简单问题,L1、L2正则化,某种程度上,就是利用凸集特性,
深度学习|正则化方法笔记
文章图片

a的l-1次幂,上一层的输出结果,经过W,b,得到线性的结果Z的l次幂,经过softmax非线性的计算,得到a的l次幂,
损失函数相同,w和b不同,全集来训练神经网络, 没问题,或者说,神经网络训练好了,只在训练集里用,相当于要判断猫,把所有猫的照片拿来,都打好标签,这时候只要查询结果就行了。训练的目的,不只在训练集里好用,拿来一个新的样本,依然判断出结果。
如果来了一个新的数据,参数数值是大还是小,影响就很大了,比如取了一个数值比较大的参数,这时候来了一个新的数据,新数据和大参数相乘后,就得到一个大的数值,如果没有误差,没有噪声,这完全没问题,但是,不可能嘛,肯定是有误差、有噪声的,误差和噪声经过大参数相乘后也会被放大,误差和噪声被放大后,就更容易出问题,本来是一只猫,被判断出狗
解决办法,给一个可行域,在可行域之内求最值,w只要被约束好了,b就自然而然的能被调整好,
深度学习|正则化方法笔记
文章图片

J 损失函数,x固定的,左边曼哈顿距离,右边欧几里得距离/L2距离,w到原点的距离是小于等于c的。
深度学习|正则化方法笔记
文章图片

拉格朗日乘数的形式表现出来,约束条件前面加上lamda,拉格朗日乘子,
深度学习|正则化方法笔记
文章图片

损失函数的等高线,中间是最小值对应的点, 绿色框代表可行域范围,只要确定了可行域范围,我们就能找到在约束条件下的那个最值点,
L1范数和L2范数对应的可行域是一个凸集,
深度学习|正则化方法笔记
文章图片

深度学习|正则化方法笔记
文章图片

【深度学习|正则化方法笔记】L1容易在角上,只看胡子特征, L1带来稀疏性,特征和特征之间的关系去耦合了,去耦合的过程,也恰恰就是减少过拟合的过程,

    推荐阅读