8.5 LightGBM
文献:LightGBM: A Highly Efficient Gradient Boosting Decision Tree
LightGBM的核心目标是通过减少数据量和特征维度来加速训练,同时保持模型精度。其创新点主要体现在GOSS(梯度单边采样)和EFB(互斥特征捆绑)两项技术上。
LightGBM相较于XGBoost,更适合在大数据或高维特征场合使用。
8.5.1 原理
- Gradient-based One-Side Sampling
传统GBDT需扫描所有数据计算信息增益,计算成本高。而GOSS保留了梯度大的样本,并随机采样梯度小的样本,通过权重补偿修正数据分布偏差。如此,大梯度样本就能够主导信息增益计算,同时这种加权修正也能够近似原始分布。
- Exclusive Feature Bundling
在高维特征场合,存在“特征互斥”的现象,即某些特征永远不会同时非零(如独热编码)。鉴于此,将这些互斥的特征捆绑为单一特征,减少特征数量。
- 生长策略
LightGBM采用Leaf-wise的树生长策略,每次选择损失下降最大的叶子节点分裂,深度优先。因此,LightGBM能够更快降低损失,生成更复杂的不对称树。
XGBoost采取Level-wise的树生长策略,逐层分裂树,每层分裂所有叶子节点,广度优先。
- 直方图算法
LightGBM对连续特征离散化为直方图,降低计算复杂度。
XGBoost既支持预排序特征值,又支持直方图算法