梯度提升决策树GBDT的方法是什么
这篇文章主要介绍“梯度提升决策树GBDT的方法是什么”,在日常操作中,相信很多人在梯度提升决策树GBDT的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”梯度提升决策树GBDT的方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
为茅箭等地区用户提供了全套网页设计制作服务,及茅箭网站建设行业解决方案。主营业务为成都网站建设、网站制作、茅箭网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!
G-B-D-T梯度提升决策树,顾名思义,是一个与梯度有关、对决策树进行了提升的机器学习模型。我们不妨从后往前依次聊聊GBD这几个定语,从而理解这个模型的精髓。
DT(Decision Tree)决策树。 T自不必多说,作为一种常见的数据结构出现在各种算法当中。DT决策树,有分类树与回归树两种,之前文章中讲到了分类树,可参见 与 。回归树原理机制与分类树相似,区别在于分类树只有在叶子结点返回唯一分类,而回归树的每个节点都能返回预测值,通常为当前节点下所有样本的均值。
B(Boosting)提升。即在原来模型的基础之上做进一步提升,提升决策树BDT的基本思想是采用多棵决策树串行建模。具体过程为,对于第一棵树之后的每一棵决策树,都基于前一棵决策树的输出进行二次建模,整个串行建模过程相当于对预测结果朝目标值进行修正。
G(Gradient)梯度。梯度的大小反映了当前预测值与目标值之间的距离。因此,上面B所述的串行决策树模型,除开第一棵决策树使用原始预测指标建树,之后的每一棵决策树都用前一棵决策树的预测值与目标值计算出来的负梯度(可以理解为残差或者增量)来建树。这相当于给分错的样本加权多次分类,使样本最终的残差趋近于0。除开第一棵树的其他树,由于都是对目标的残差或增量进行建模预测,因此GBDT模型只需把过程中每一棵决策树的输出结果累加,便可得到最终的预测输出。
这里借用网上流传较广的一个预测年龄的例子来描述GBDT的过程。一共4个样本:
A(消费较高、经常被学弟问问题)27岁
B(消费较高、经常问学长问题)23岁
C(消费较低、经常被学弟问问题)17岁
D(消费较低、经常问学长问题)13岁
串行决策树构建如下图所示。可知模型拟合情况,A的年龄为25 + 2 = 27岁,B的年龄为25 - 2 = 23岁,C为15 +2 = 17岁,D为15 - 2 = 13岁。
综上,一句话概括GBDT的核心思想就是:串行训练n(n > 2)棵决策树,其中第i(1 < i ≤ n)棵树学习第i - 1棵树的负梯度(可理解为残差或增量),n棵树的输出结果累加作为最终输出结果。
GBDT的优点和局限性
优点:
1.在预测阶段的计算快速,树与树之间可以并行化计算
2.在分布稠密的数据集上,泛化能力和表达能力都很好。
3.采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自动发现特征间的高阶关系,并且也不需要对数据进行特殊的预处理。
局限性:
1.GBDT在高维稀疏的数据集上,表现不如SVM或者神经网络
2.GBDT在处理文本分类特征问题上,相对其他模型的优势不如在处理数值特征时明显。
3.训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度。
到此,关于“梯度提升决策树GBDT的方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!
网站栏目:梯度提升决策树GBDT的方法是什么
地址分享:http://scyanting.com/article/jpcssc.html