8.5 LightGBM

文献:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

官方文档

LightGBM的核心目标是通过减少数据量和特征维度来加速训练,同时保持模型精度。其创新点主要体现在GOSS(梯度单边采样)和EFB(互斥特征捆绑)两项技术上。

LightGBM相较于XGBoost,更适合在大数据或高维特征场合使用

8.5.1 原理

  1. Gradient-based One-Side Sampling

传统GBDT需扫描所有数据计算信息增益,计算成本高。而GOSS保留了梯度大的样本,并随机采样梯度小的样本,通过权重补偿修正数据分布偏差。如此,大梯度样本就能够主导信息增益计算,同时这种加权修正也能够近似原始分布。

  1. Exclusive Feature Bundling

在高维特征场合,存在“特征互斥”的现象,即某些特征永远不会同时非零(如独热编码)。鉴于此,将这些互斥的特征捆绑为单一特征,减少特征数量。

  1. 生长策略

LightGBM采用Leaf-wise的树生长策略,每次选择损失下降最大的叶子节点分裂,深度优先。因此,LightGBM能够更快降低损失,生成更复杂的不对称树。

XGBoost采取Level-wise的树生长策略,逐层分裂树,每层分裂所有叶子节点,广度优先。

  1. 直方图算法

LightGBM对连续特征离散化为直方图,降低计算复杂度。

XGBoost既支持预排序特征值,又支持直方图算法

8.5.2 实现