8.1 基础知识
8.1.1 偏差-方差权衡
记y=f(x)+ε,E(ε)=0,f表示真实模型,ˆf是模型某次训练得到的结果,E(ˆf)表示训练模型的期望表现。
E[(ˆf−y)2]=E[(ˆf−E(ˆf)+E(ˆf)−y)2]=E[(ˆf−E(ˆf))2]+E[(E(ˆf)−y)2]+2E[(ˆf−E(ˆf))(E(ˆf)−y)]=E[(ˆf−E(ˆf))2]+E[(E(ˆf)−y)2]=E[(ˆf−E(ˆf))2]+E[(E(ˆf)−f−ε)2]=E[(ˆf−E(ˆf))2]+E[(E(ˆf)−f)2]+ε2
故模型的期望泛化错误率可拆解为方差+偏差+噪声
8.1.2 评价指标
- 分类问题
- 准确率
Accuracy=TP+TNTP+TN+FP+FN
- 精确率(查准率):有没有误报
Precision=TPTP+FP
- 召回率(查全率):有没有漏报
Recall=TPTP+FN
- F1与Fβ
F1=2∗Precision∗RecallPrecision+RecallFβ=(1+β2)∗Precision∗Recallβ2∗Precision+Recall
0<β<1时精确率有更大影响,β>1时召回率有更大影响
- ROC曲线与AUC:横轴假阳率FPR,纵轴真阳率TPR,全局性能评估
TPR=TPTP+FNFPR=FPFP+TN
- PR曲线与AUC:横轴召回率,纵轴精确率,更关注正样本预测质量
当存在类别不平衡情况时,PR曲线相较ROC曲线更敏感,能捕捉到异常
代价曲线:引入误判代价
宏平均:对于多个混淆矩阵,先计算各个混淆矩阵的指标,再求平均
微平均:对于多个混淆矩阵,先平均各个混淆矩阵,再求指标
- 回归问题
均方误差:对异常值敏感
均方根误差:量纲与目标变量一致
平均绝对误差:对异常值不敏感
R2与R2adj
- 其他
- AIC
AIC=−2L(ˆθ)max+2k
k是参数数量
- BIC
BIC=−2L(ˆθ)max+kln(n)
8.1.3 特征工程
特征工程:从原始数据中创建、选择、变换或组合特征,以提高机器学习模型性能的过程。
8.1.3.1 探索性数据分析
了解数据在分布、类型、统计量、缺失值、异常值、实际含义等方面的基本信息。
方法:
数据可视化
注意辛普森悖论,引入分层变量进行探索
描述性统计
专家的先验知识
相关性分析
皮尔逊相关系数、斯皮尔曼秩相关系数(非参)、肯德尔秩相关系数(非参,有序变量)、列联表检验