机器学习是什么?
在日常学习和工作中,人们常常利用经验来对事物进行决策与判断。而机器学习即是这种情况的泛化。在计算机系统中,经验通常以“数据”的形式存在,而决策则通过模型和偏好进行判断。于是我们可以总结如下说明:机器学习的主要研究内容是关于在计算机上从数据中产生“模型”的算法,也就是“学习算法”。有了学习算法,那么我们则可以通过对其提供数据,从而依照数据产生相应的模型;在面对新情况时,计算机则可以依据先前产生的模型给我们提供相应的判断依据。
机器学习中的基本术语
下面我们来介绍机器学习中的一些基本术语:
- 数据集:收集到全体数据的总集,称为数据集。
- 描述/示例/样本/特征向量:对于某个特定对象的具体描述数据。
- 属性/特征:反映事件或对象在某方面的表现或性质。
- 属性值:属性上的不同取值。
- 属性空间/样本空间/输入空间:属性张成的空间。
- 维数:用于描述每个样本的属性的个数称为维数。
- 学习/训练:计算机从数据中通过执行某个学习算法得到相应模型的过程。
- 训练数据:训练过程中使用的数据称为训练数据。
- 训练样本:训练过程中使用的样本称为训练样本。
- 训练集:训练中使用样本的总集称为训练集。
- 假设:训练所得到模型中未给出,但潜在的规律称为假设。
- 标记:即对应我们决策内容的结果。
- 样例:拥有了标记信息的示例,则称为样例。
- 标记空间/输出空间:所有结果的集合空间。
- 分类:若预测的结果是离散的值,我们称此时的学习任务为分类。
- 回归:若当前需要预测的值是连续值,则称此时的学习任务为回归。
- 测试:在学得模型之后使用其进行预测的过程我们称为测试。
- 聚类:通过我们的模型将训练集中的数据分成不同的类别,了解数据内在规律。
- 监督学习:对于有标记的数据信息进行的机器学习。例如,分类与回归。
- 无监督学习:对于没有标记数据进行的机器学习,例如聚类。
假设空间
归纳与演绎
归纳与演绎是科学推理的两大基本手段。其中归纳是从事实出发,从特殊到一般的泛化,后者是从一般到特殊的“特化”过程。
归纳学习
机器学习是一种归纳学习,目前归纳学习存在狭义和广义之分,广义的归纳学习指的是从样例中学习,而狭义的归纳学习要求从训练集中学得相应的概念。
假设空间与机器学习
机器学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中数据正确批判的假设。而我们容易知道如果假设的表示方法一旦确定,那么随之确定的还有假设空间的大小。
同时我们需要注意,在现实问题中我们常常存在着很大的假设空间,而只存在着有限的训练样本,于是可能有多个假设与我们的训练样本一致,即存在着一个与训练集一致的“假设集合”,我们称之为版本空间。
归纳偏好
通过学习我们得到的模型对应着假设空间中的一个假设。那么此时可能存在着多个假设与我们的训练集相符合,于是在这种情况下无法判断上述假设中哪一个更好。然而对于一个具体的“学习算法”而言,其必须要产生一个相应的模型,于是此时则需要学习算法具有偏好从而起到关键的筛选作用。
于是我们得到如下结论:
任何一个有效的机器学习算法必然有其归纳偏好,否则其将被假设空间中在训练集上的等效的假设所迷惑,从而无法产生确定的学习结果。
但是我们需要指出的是没有一种确定的“标准”来对所有算法确定其偏好的好坏,我们在此需要依据不同问题的特性选择具有不同偏好的算法。同时我们可以证明如下一个重要结论(NFL结论):
若算法x在A方面比算法y好,那么此时必然存在另一些问题,在那里算法y要优算法x。
机器学习的发展历史与应用现状
参考如下链接:(懒了!)
https://www.jianshu.com/p/0fed5efab3e5