2月7日,“数据场景应用创新大赛”——“道路安全之高速公路货车评分算法赛”线上答疑活动成功举办。活动由贵阳大数据交易所主办,贵州数据宝网络科技有限公司协办。赛题设置团队贵州数据宝网络科技有限公司算法专家徐旭彬、保险精算师李晓红对本赛题进行详细解读,并围绕参赛选手及团队提出的问题进行线上答疑解惑。
“道路安全之高速公路货车评分算法赛”是围绕保险公司风控场景,探索建立合理的货车安全建模评分模型和交通安全评价指标体系,希望参赛选手能完成非营业货车风险评分。为激发广大参赛选手的创新意识,比赛不限制选手的模型策略,各位选手可以结合自身经验和理解,对交通场景的分析选择最优模型进行训练比赛,最终大赛将采用均方误差的方式对参赛选手提交的成果进行评分,误差越低,排名越高。
在实际交通运输场景中,保险公司能够掌握的数据来源有限,多以车牌号、车龄、吨位数、使用性质、车辆种类等静态因子为主,建模和业务筛选维度都有限,需要与数据宝这样深度运营高速大数据资源的公司进行合作,通过动态因子与静态因子相结合进行建模,优化模型的预测能力,模型的评分结果可以作为定价因子运用到保险公司的定价策略中,提高保险公司的定价能力。
—答疑环节—
Q:赛题释放的数据集范围和含义?
A:“道路安全之高速公路货车评分算法赛”目前释放的数据集包括高速领域相关数据字段,供参赛选手进行建模和分析,数据集包含范围如下:
样本ID:是指脱敏处理后的车辆信息,一个号码对应一辆车。
承保地区:是指车是指定车险保单的签单地区,不是车牌号对应的地区。
起保日期:是指车险保单中对应的起保日期。
行程数:是指一个高速路口驶入到另一个高速路口驶出,记作一次行程,是对一年内该车的高速行程进行汇总计数。
超载次数:是指定车辆有超载行为的行程数。
超速行驶次数:是指定车辆有超速行为的行程总数。超速行程是指平均速度大于等于90公里每小时的行程。
夜晚行驶次数:是指晚上19点到次日的凌晨五点,它的行驶的总次数就是夜晚行驶次数。
行驶时间:是指保单起保日期往前推一年内,在高速上的总行驶时间,单位是小时。
异地行驶次数:是指车辆在所属省级,所属车在省份外的行程数。
行驶总里程:是指定车辆高速总里程之和,单位是公里。
平均单次出行里程:是指行驶总里程除以总行程数。
平均速度:是指定车辆高速通行均次平均速度,是把所有的行程的平均速度再按照行程数取平均值。
Q:训练集里的指标的时间范围是多久?
A:训练集中所有的指标,它是指从起保日期往前推一年的时间窗口做的汇总统计。
Q:Y值评分是人工进行评分的吗?
A:是人工评分。在实际的场景应用中,因为每张保单的赔付率是保险公司比较机密和而隐私的数据,所以对Y进行了人工处理。此外把它切换成了1到100分,其中1分代表是风险最高,100分是代表风险最低。
Q:超载数据是通过过磅得来的吗?
A:超载数据是货车行驶到高速公路出入口时,高速公路站会对它进行称重,再根据车辆的轴数和车辆核定载量来判断这辆车是否超载。
Q:总里程,行驶时间,平均速度这几个计算的字段和给出的平均速度的差值是现实误差吗?
A:两种计算方式处理手段不同,赛题的数据集里面给出来的平均速度,是每一次行程计算的平均速度,然后再根据一年内的行程数取平均值。比如一辆车一年之内在高速公路行驶了100次,会先计算它在每一趟高速的速度,相加后除以100,求其平均速度。建议参赛选手以赛题释放的数据为准。
Q:按照官方说明里面对多模型的策略进行限制,要求模型组合不能超过三个,这是指对同一套数据进行训练的模型不能超过三个。如果我将训练集按照某些规则进行分群,比如按照承保地区分成不同的群体,再对每个群体分别进行建模,这种方式是否作为多模型策略?
A:这种方式不会判定为多模型策略,可以按照地形、经济发展水平等维度对地区进行分类建模,不同地区的人伤赔付标准不同。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved