本篇文章来总结一下树模型缺失值处理的方法
1、决策树
对普通的决策树来说,缺失值需要注意三个方面的问题:
- 在选择分裂属性的时候,训练样本存在缺失值,如何处理?
- 在建树过程中,给定划分属性,若样本在该属性上的值是缺失的,那么该如何对这个样本进行划分?
- 训练完成,给测试集样本分类,有缺失值怎么办?
针对第三个问题,通常选择样本数最多的特征值方向。
2、XGBoost
XGBoost处理缺失值,是将所有有缺失值的数据捆绑在一起,比较将这些数据都放入左子树 和都放入右子树时的损失大小。
本篇文章来总结一下树模型缺失值处理的方法
对普通的决策树来说,缺失值需要注意三个方面的问题:
针对第三个问题,通常选择样本数最多的特征值方向。
XGBoost处理缺失值,是将所有有缺失值的数据捆绑在一起,比较将这些数据都放入左子树 和都放入右子树时的损失大小。
Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务