决策树最常用的三个算法是:
- ID3
- C4.5
- CART
这三种决策树算法的区别在于ID3是选择信息增益大的属性来对样本进行划分,由于存在缺点(多属性的取值会使得模型的泛化能力变差,决策树容易产生过拟合),所以C4.5进行改进,选用了信息增益比来对样本进行划分,但是问题还是存在。所以引入CART树,使用基尼系数作为节点的分类依据。
- ID3 选择信息增益大的属性来对样本进行划分(多属性的取值会使得模型的泛化能力变差,决策树容易产生过拟合)
- C4.5 选择信息增益比来对样本进行划分()
- CART树 选择基尼系数作为节点的分类依据(有剪枝)
信息增益g(D,A):表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
$g(D,A) = H(D) - H(D|A)$
- H(D):集合D的
信息增益比
基尼系数
决策树的特征选择、生成、剪枝
ID3和C4.5的区别;RF和GBDT的区别;GBDT是否适合于处理大规模的ID特征