决策树的概念
决策树是一种十分常用的 分类方法,对于部分特殊问题,也可用于回归任务。首先需要明确的是决策树是一种监督学习。决策树十分直观,易于理解。
具体说来决策树通过把数据节点把数据分配到某个叶子节点来确定数据集中样本所属的分类。决策树由决策节点、分支和叶子节点组成:
- 决策节点表示在样本一个属性上的划分。
- 分支表示对于决策节点进行划分的输出。
- 叶节点代表结果分支到达的类。
决策树会从决策树的根节点出发,自顶向下移动,在每个决策节点都会进行划分,通过划分结果将样本进行分类,进入不同分支,最后到达叶子节点,这个过程就是利用决策树进行分类的结果。
通过上述描述,我们容易看出决策树同上是用于离散的分类问题。但是同时我们也需要说明的是,决策树同时也是可以用于连续变量的有关问题的,例如对数轴上的点做区间划分,划分后我们也得到了决策树。分支处理
决策时中十分重要的一个问题是分支的处理,如何进行分支的构造。往往采用 启发式算法来进行决策树的构造,例如使用贪婪算法对每个分支进行构造,接下来我们具体介绍:ID3算法
ID3算法是在每个节点处选取能获得最好信息怎一的分支属性进行分裂。在每个决策节点处划分分支、选取分支属性的目的是将整个决策树的样本纯度提升。而衡量样本几何纯度的指标是熵:而计算分支属性对于样本分类好坏的程度的衡量指标信息增益,由于分类后样本纯度提高,则样本熵降低,即为该算啊的信息增益。公式如下: