风控并行组合模型及其额度定价场景实践（组合模型3）

昨天，我们分享过一篇文章《串行组合模型及信用评估场景实践》，里边详细介绍了串行组合模型的原理逻辑，以及在信用风险评估场景的具体实现过程。同时，从模型串联数量、排列顺序等多个维度验证了串行组合模型的合理性与有效性，不仅体现在串联模型相比单一模型的效果更佳外，而且还说明模型串行顺序有利于综合模型性能的调优，从而有效证明了串行组合模型在实际建模场景的价值。

作为组合模型内容的姊妹篇，本文将为大家介绍下并行组合模型的实现过程，以及在实际业务场景中的应用效果。

1、并行组合模型原理

并行组合模型与串行组合模型同理，也是多个单一模型的叠加融合结果，主要区别在于各个子模型的流转过程是以并列的方式呈现，具体示意图如图1所示。其中，模型1/2/3的输入数据均为原始样本，输出数据为各模型的预测结果，最终总模型是将各个子模型的输出数据以投票（分类）或代数（回归）的方式进行汇总融合，这种方式也是并行组合模型的最大优点，可以将各个单一模型的误差得以平衡，不会因某个模型的误差较大而过度影响最终的决策效果。

编辑

添加图片注释，不超过 140 字（可选）

图1 并行组合模型示意图

对于模型融合环节，当模型为分类问题时，例如模型预测结果为二分类（0/1）或多分类（0/1/2），则综合模型最终结果的生成通常采用投票法，具体包括简单投票、加权投票等；当模型为回归问题时，例如模型预测结果为0至1000范围的连续数值，则综合模型最终结果的生成通常采用代数法，具体包括直接平均、加权求和等。多个模型融合的输出数据（投票或平均），便是综合模型的决策分析结果。

并行组合模型与串行组合模型类似，根据模型算法的类型不同，可以分为同类并行组合模型、异类并行组合模型。同时，异类组合形式在实际业务中应用场景较多，以回归机器学习算法为例，常采用的模型包括线性回归、支持向量机回归、K近邻回归、决策树回归、XGBoost回归、随机森林回归等。下面我们将围绕信贷风控典型的额度定价授信场景，结合具体的实例样本数据，来构建一个异类并行组合模型。

2、实例样本数据描述

针对异类并行组合模型的算法类型不同，本文选取线性回归、XGBoost、决策树、K近邻、随机森林共5个算法来实现模型融合。同时，由于本场景的额度定价为回归问题，因此以上各机器学习模型均采用回归算法。本实例的样本数据包含10000条样本与9个字段，部分数据样例如图2所示。其中，id为样本主键，credit_apply、call_total等7个特征为X变量池，credit_amount为目标变量Y，具体特征字典如图3所示。

编辑

添加图片注释，不超过 140 字（可选）

图2 样本数据样例

编辑

添加图片注释，不超过 140 字（可选）

图3 样本特征字典

根据以上样本数据，现构建一个贷前额度定价授信模型，即通过credit_apply、call_total、travel_index等7个特征变量对目标变量credit_amount进行拟合训练。其中，特征变量的简单描述性统计分布eda结果如图4所示。为了便于了解目标变量credit_amount取值分布情况，我们通过图5的代码实现过程，来完成目标变量的直方图输出，具体可视化分布结果如图6所示。

编辑

添加图片注释，不超过 140 字（可选）

图4 特征变量eda分布

编辑

添加图片注释，不超过 140 字（可选）

图5 目标变量可视化实现

编辑

添加图片注释，不超过 140 字（可选）

图6 目标变量直方图分布

3、特征变量性能分析

为了有效避免模型训练后出现较强的模型共线性现象，在模型变量拟合之前，有必要对各特征变量进行简单的特征工程分析，例如特征相关性、特征共线性等，这里分别采用pearson系数与VIF系数来进行评价，具体分布结果如图7、8所示（实现过程详见本文代码附件）。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

图7 特征pearson系数

编辑

添加图片注释，不超过 140 字（可选）

图8 特征VIF系数

由以上结果可知，特征变量之间的相关性系数整体表现偏低，最大系数值不超过常见阈值0.5，说明特征之间的相关性表现较弱；特征VIF系数值最大值仅有2.96617，远低于业务中的判断阈值10。因此，本样本数据的特征字段相互没有较强的相关性，有利于后续模型训练环节的变量拟合。

4、单一模型拟合训练

本文实现的异类模型并行组合，采用的机器学习回归算法分别为线性回归LinR、XGBoost、决策树Tree、K近邻KNN、随机森林RF共5个类型。对于最终并行模型的融合，输入数据为各子模型的预测结果，因此我们需要依次训练拟合各个子模型，并将输出数据分别保存，以作为综合模型的策略数据输入。此外，为了评估综合并行模型的性能优势，我们有必要对各个子模型进行效果评估，这里采用回归模型常见评价指标R2来量化分析。

对于模型构建环节，我们从整体的建模样本数据抽取70%来训练模型，其余30%数据用来测试模型，最后我们分别输出训练集train与测试集test的模型R2指标，除了量化分析模型整体表现之外，重点来对比描述各模型应用的稳定度情况。各个子回归算法模型（LinR、XGB、Tree、KNN、RF）的模型训练与模型评估过程，具体实现分别如图9~13所示。

编辑

添加图片注释，不超过 140 字（可选）

图9 线性回归LinR模型

编辑

添加图片注释，不超过 140 字（可选）

图10 XGBoost回归模型

编辑

添加图片注释，不超过 140 字（可选）

图11 决策树Tree回归模型

编辑

添加图片注释，不超过 140 字（可选）

图12 K近邻KNN回归模型

编辑

添加图片注释，不超过 140 字（可选）

图13 随机森林RF回归模型

通过以上各子模型的训练与预测，训练集train与测试集test的模型性能指标R2表现具体如图14所示。根据模型拟合优度R2指标评价方法（取值范围0~1，取值越大模型效果越好），可见各模型在训练样本与测试样本的性能表现均较好。

编辑

添加图片注释，不超过 140 字（可选）

图14 子模型R2评价指标

5、并行组合模型实现

当各个子模型完成拟合训练后，我们将训练集与测试集的预测结果数据分别进行保存（pred1_Y_train~pred5_Y_train、pred1_Y_test~pred5_Y_test），作为并行组合模型的输入数据。对于模型的并行融合，由于本例的额度定价为回归场景，因此可采用简单平均或加权平均的方法来实现，这里通过简单的直接平均来完成，即将各模型的预测结果pred1_Y_train~pred5_Y_train求和，然后再除以子模型数量5，从而得到训练数据的模型并行结果pred_mean_train，测试数据的模型并行与此同理。模型在训练集与测试集的模型并行组合，具体实现过程如图15所示。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

图15 模型并行组合实现

模型并行组合后，同样输出综合模型在训练样本与测试样本的评价指标R2，这里将各子模型的性能表现进行汇总分析，具体结果如图16所示。模型并行组合模型的主要优势并非某个维度的性能指标表现很好，而是经过融合的组合模型在应用过程中较为稳定。从表中结果可以看出，对于各子模型与综合模型的整体效果均表现较好，在这种情形下，我们需要重点评估下模型的稳定度情况。因此，这里引入误差指标的量化分析，具体逻辑是指模型在测试集test的R2表现，相对训练集train指标的差异程度。以子模型LinR为例，误差error=abs(1-(0.9951/0.9955))=0.000402，对于其他模型，按照此方法同理实现。从分布结果来看，并行组合模型的误差0.000203相对其他各子模型表现最小，说明综合并行组合模型在训练样本与测试样本的稳定性最好，这也是并行组合模型的优势，可以平衡各子模型的预测误差，从而有效保证模型应用的稳定程度。

编辑

添加图片注释，不超过 140 字（可选）

图16 并行模型性能分析

综合以上内容，我们围绕模型并行组合的原理思想，通过信贷额度定价的具体实例场景，实现了并行组合模型的完整建立过程，并通过模型指标验证了并行组合模型的稳定性能优势，从而为实际建模场景的模型优化提供价值参考。为了便于大家对并行组合模型的进一步理解与熟悉，本文额外附带了与以上内容同步且更详细的代码与数据，供大家参考学习，详情请移至知识星球查看相关内容。

编辑切换为居中

添加图片注释，不超过 140 字（可选）

...

~原创文章

查看全文