【machine learning】regularization

一、机器学习范式

1、按数据类型划分(带标签与否)

这是从样本的数据进行划分,现实中大部分属于半监督学习,并且大部分数据是没分类好的。

监督学习:

例子:

分类
e.g. 文本分类 垃圾邮件过滤 搜索结果
回归分析
e.g. 房价预测 股价预测
序列标注
e.g. 词性标注
输入:“我中了一张彩票”
输出:“我/r 中/v 了/y /一/m /张/q /彩票/n

无监督学习:

例子:
聚类
e.g. 热点话题发现 社团发现
密度函数估计(probability density estimation )
e.g. pdf估计
异常点检测(outlier detection)
e.g. one-class SVM, 去噪

半监督学习:

核心思想
考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题

例子:
分类
e.g. 垃圾邮件过滤,半监督SVM
回归分析
聚类
e.g. GMM

2、按学习过程划分
主动学习、转导学习、强化学习

主动学习(Active Learning)
有少量标注的数据以及丰富的未标注数据 ,标注数据的成本很高,学习算法主动提出一些标注请求,将筛选过的数据交给专家进行标注,然后将标注的数据加入到训练集中,再进行训练。

核心问题:怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好

与半监督学习的区别:半监督学习算法不需要人工干预,基于自身对未标记数据加以利用,微博的用户推荐用户就是充当专家的角色。
问题可形式化为:

转导学习(Transductive Learning)
一种通过观察特定的训练样本,进而预测特定的测试样本的方法在不同的测试集上会产生相互不一致的预测

特点:
1.建立一个更适用于问题域的模型,而非一个更通用的模型
2.利用无标注的测试样本的信息发现聚簇,进而更有效地分类
3.模型近似

与半监督学习的区别:半监督学习不知道测试案例是什么,转导学习知道测试案 例是什么
半监督学习本质上是从特殊到一般(train),一般到特殊(predict)的推理方法
转导学习本质上是直接从特殊到特殊的推理方法,自动修正模型。
强化学习(Reinforcement Learning)
从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大。该方法不同与监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错(trial-and-error)的方法来发现最优行为策略
)的方法来发现最优行为策略

适用情况:适用于序列决策或者控制问题,很难有这么规则的样本。

e.g. 象棋AI程序
解决思路:我们设计一个回报函数(reward function),如果learning agent(象棋AI程序)在决定一步后,获得了较好的结果,那么我们给agent一些回报(比如回报函数结果为正),得到较差的结果,那么回报函数为负。如果我们能够对每一步进行评价,得到相应的回报函数,那么就好办了,我们只需要找到一条回报值最大的路径(每步的回报之和最大),就认为是最佳的路径。
备注:一个强化学习的比赛 http://ijcai-15.org/index.php/angry-birds-competition

二、正则化

1、模型选择:

a.若采用多项式拟合

欠拟合(underfit,also high bias)
特征集过小,模型过于简单,会导致训练集的误差明显增大的现象。

过拟合(overfit,also high variance)
非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好,但是对测试集效果很差,即训练误差少,测试集误差大。

b.避免过拟合的方法——约束高阶多项式的系数

以下是不同阶数的多项式相对应的系数

定义损失函数:

绿色曲线为最佳拟合,红色曲线为实际拟合结果。
罚项系数选择
1.交叉验证
2.超参数学习,解决最优化问题

2、模型选择策略

a.代价函数(Cost function)
b.风险函数或期望风险(risk function)
① 定义为损失函数的期望
② 理论上模型f(x)关于联合分布P(X, Y)的平均意义下的损失

① 学习的本质目标是选择期望风险最小的模型,由于联合分布P(X,Y)是未知的,风险函数Rexp(f)不能直接计算。
c.经验风险(empirical risk minimizatiion, ERM)
①模型f(x)关于训练数据集的平均损失称为经验风险,对期望风险的近似

其实,最大似然估计等价于最小化经验风险。
②经验风险最小化(ERM)的策略认为,经验风险最小的模型是最优模型
③当样本容量是够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛应用
④当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)”现象,如多项式阶数很大,出现过拟合。

d.结构风险(structural risk minimization, SRM)
①在经验风险上加上表示模型复杂度的正则化项或罚项
②防止过拟合

其中J(f)为模型的复杂度,是定义在假设空间 F 上的泛函数。
模型 f 越复杂,复杂度J(f)就越大;反之,模型 f 越简单,复杂度J(f)就越小

决定了用以权衡经验风险和模型复杂度
④结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测,正则化的本质是控制模型的复杂度。

3、贝叶斯公式

贝叶斯公式反映人们推理的方式,即人做实验时,先需要作出一定的假设(利用先验知识),在假设的指导上去做实验,得到观察数据,最后利用实验数据修正对假设的理解,也就得到后验分布。

最小二乘问题的最大后验估计(MAP)

最大后验估计等价于最小化正则化的平方损失函数,最大后验估计等价于最小化结构风险。
代价函数可改成:

回顾下不加正则化的正规方程

加正则化的正规方程,相当于对矩阵所有特征值同时加了,新矩阵基本上是可逆的(除非原矩阵存在负的特征),即新的特征方程有唯一解。因而利用贝叶斯的正则化是分类算法中常用的方法。

Comments