Skip to content

Latest commit

 

History

History
200 lines (99 loc) · 3.8 KB

集成学习.md

File metadata and controls

200 lines (99 loc) · 3.8 KB

集成学习

决策树

分类树

信息熵

信息熵是用来衡量信息不确定性的指标,不确定性是一个事件出现不同结果的可能性。计算方法如下:

条件熵和信息增益

信息增益越大,划分就越好,信息不确定性降低,说明结果越可靠。

基尼指数

基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。

Gini增益跟信息增益类似,是父节点的基尼指数-子节点的基尼指数。

使用基尼指数进行划分得到是一个CART树(二叉树)。

回归树

集成学习简介

Bagging

每次随机选择m个样本,训练一个分类器hi,循环这个过程n次,得到n个分类器,然后用这个n个分类器分别预测结果,选择预测结果相同且出现次数最多的结果作为最终结果。

Boosting

随机森林

随机森林是bagging算法里面的代表。

Adaboost

算法流程

GDBT

用弱学习器训练结果预测原数据集的标签,然后与原数据集的标签做差得到残差,然后用残差训练另一个弱学习器,重复此过程,直到收敛,然后聚合所有弱学习器得到最终的强学习器。

代替残差,用负梯度拟合基学习器。梯度方向,增加最大,负梯度方向,减小最大。

XGBoost

模型形式

目标函数

前面t-1的值已经确定,最小化$f_t(x_i)$就可以得到正则化项最小值。

$g_1$是一阶导,$h_1$是二阶导

学习策略

找到增益最大

精确贪心算法时间复杂度高,用下面的近似算法替代。

系统设计