经验误差与过拟合
在本章中我们首先介绍几个概念:
- 错误率:(error rate):在m个样本中,存在a个样本分类错误,则错误率为$E=\frac{a}{m}$。
- 精度(accuracy):精度=1-误差,也就是$q-\frac{a}{m}$。
- 误差(error):学习器在的实际预测输出与样本之间的真实输出差异称为误差“error”.更进一步,在训练集上的误差称为“训练误差”或者“经验误差”,在新样本上的误差称为“泛化误差”。
- 过拟合:在训练过程中,由于拟合过度使得模型缺少了泛化能力。
- 欠拟合:在训练过程中未能使得学习器对样本的一般性质得到有效认识。
对于上述过拟合与欠拟合两种情况,我们分别分析其解决方案。对于欠拟合而言,通常是由于学习能力地下造成的,欠拟合比较容易客服,例如在决策树学习中拓展分支、神经网络中增加训练论述等。而过拟合则相对麻烦。
事实上过拟合的本质是”NP问题”,假若我们相信”$P \neq NP$”,那么就意味着过拟合是不可避免的。
而尽可能避免欠拟合和过拟合两种情况,就是模型选择的依据之一。
模型的评估方法
通常我们可以通过实验测试来对学习起的泛化误差进行评估并进一步做出选择。于是就有了“测试集”这一概念。然后以测试集上的“测试误差”作为泛化误差的近似。
接下来我们来介绍多种模型评估方法。
留出法
“留出法”是直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另外一个作为测试集T,即$D = S \cup T$