决策树最常用的三个算法是:

  1. ID3
  2. C4.5
  3. CART

这三种决策树算法的区别在于ID3是选择信息增益大的属性来对样本进行划分,由于存在缺点(多属性的取值会使得模型的泛化能力变差,决策树容易产生过拟合),所以C4.5进行改进,选用了信息增益比来对样本进行划分,但是问题还是存在。所以引入CART树,使用基尼系数作为节点的分类依据。

  • ID3 选择信息增益大的属性来对样本进行划分(多属性的取值会使得模型的泛化能力变差,决策树容易产生过拟合)
  • C4.5 选择信息增益比来对样本进行划分()
  • CART树 选择基尼系数作为节点的分类依据(有剪枝)

信息增益g(D,A):表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
$g(D,A) = H(D) - H(D|A)$

  • H(D):集合D的

信息增益比
基尼系数

决策树的特征选择、生成、剪枝

ID3和C4.5的区别;RF和GBDT的区别;GBDT是否适合于处理大规模的ID特征