图计算在翼支付风控场景的应用（悠唐天下2023）

导读本次分享将介绍图计算在翼支付的风控场景下的应用。分享分为四部分，第一部分简略介绍翼支付的业务情况，因为只有熟悉了业务才能更加明确所面对的风险和使用图学习技术的优势。第二部分是图风控体系的建设方面的工作。第三部分通过对实际业务中的案例进行分析，提出基于图的解决方案。第四部分将讨论图计算在学术界和工业界领域的未来。

全文目录：

1. 翼支付业务介绍

2. 翼支付图风控体系

3. 图学习算法及应用

4. 未来展望

分享嘉宾｜徐德华翼支付风险管理部总监

编辑整理｜宋佳林中国人民公安大学

出品社区｜DataFun

翼支付业务介绍

首先简单介绍一下翼支付，作为中国电信旗下的子公司，负责包括支付方案等金融板块的工作。具体来看，翼支付主要有三大业务场景：支付场景、电商场景和信贷场景。

对于风控领域来说，其挑战是业务中面临的诸多风险。

首先是支付场景，常见的有欺诈类（涉及到账户盗用、银行卡盗刷），还有洗钱类，犯罪团伙会利用金融机构来做洗钱的平台，以及赌博套现类等。

第二个是电商场景。电商场景与之相应的更多的是营销套利的风险，例如做发放补贴或者消费券的工作时，补贴或消费券存在被羊毛党薅走，或者被虚假的交易盗用的风险。

第三个是信贷场景。信贷主要分两种风险类型。第一类是信用类，是对人的借贷能力和还款能力的评估。第二类是欺诈类，信贷场景存在中介的团伙欺诈或者恶意的骗贷行为，会对整个机构和金融秩序造成非常大的影响。

我们的对手统称为黑产。黑产从规模上来看，是一个具有千亿黑产值和约 160 万的从业人员的团体。从分工来看，整个黑产的链路分工明确，包括最底层的物料提供商，到技术的提供商，再到相关从业人员共同构成了一个完整的链路。

黑产具有技术多样，分工明确的特点。图中是我们经常遇到的一些黑产对手使用的设备，比如猫池、卡池、云手机，是为了大规模地注册账户使用的。还有一些打码平台，可以自动地识别验证码。以及用来跑分的设备模拟器等。根据对手的不同形式，我们会从风控的体系上做出针对性建设。

风控作为一个整体的解决方案，不只有模型这一部分。我们从底层的数据加工到形成一套实时的风控决策引擎，以及一些分析模块、预警模块和系统处置管理来共同完善整个金融业务流程中的风控体系建设。

除了图以外，当今的很多 AI 技术已经在风控中有较好的应用。比如 CV 领域做的视觉反诈。图中左下的两张图是在实际业务中遇到的，在用户准入的时候，欺骗者会通过合成虚假的身份证图像，或翻拍图像来实现用户的准入。对此，CV 可以有针对性地应对。

接着，是无监督的能力，在电商场景下，很明显的特点是数据通常是无标签的。对此我们有一套基于无监督的黑产团伙的挖掘方案。

同样，有监督的模型也会运用在风控中，比如 XGB，LGB 等模型是在欺诈或者信用场景下，有明确的样本标签时使用的方法。

还有一类是联邦学习的方法，从监管的角度来看，对用户隐私的保护和数据合规要求更加严格。模型的好坏，数据占很重要的成分。把更多的数据在安全的、合规的情况下使用起来，是我们基于联邦学习的联合建模的能力。

那么，为什么说图学习是风控业务的重要解决手段呢？我们先来看两个案例，这是我们在业务中发现的两种经典黑产团伙模式。第一类是大规模的团伙（见左图），考虑这个黑产团伙以黄色点为中心节点，假设该节点是一个设备，我们就可以通过发现该设备登录了很多账户来判断其为异常节点。但是作为传统角度识别方法来说，可能就到此为止了，因为无法看到一个完整的图结构。在图学习的视角中，一个完整的图结构中，黑产节点通过一些中间节点关联到更大更多的团伙，这是通过传统的方法看不到的。

第二类是如右图这种长链路的团伙。黑产是狡猾的，会与风控做对抗攻击。当我们对单账户做了非常严格的限制，导致黑产不能做明确的攻击时，黑产会转换思路。在图中，从蓝色的节点来看会觉得这是个正常的用户，因为他具有非常少的关联。但当我们做长链路拓展的时候，就可以发现它们是通过这种细长的环状结构彼此串联在一起，是一个风险团伙，会对业务进行攻击。

当前黑产的特点，第一个是团伙性。团伙性带给我们的挑战是传统规则模型以单主题为预警对象，并不能发现风险的全貌。第二个是隐蔽性。无论是规则体系也好，模型体系也好，都会有一个阈值，阈值之上的我们认为是风险。黑产就会通过不断地试探这种攻击，对它的操作行为进行包装，让我们难以识别，但其中也有难以隐藏的关联关系，是可以通过隐蔽性挖掘进行识别的，这是图学习非常擅长的。第三个是实时性，比如一个用户被骗了，给黑产的转账是很快的。我们对转账的拦截需要做到更快的响应。

翼支付图风控体系

简单来说，以点边为基础单元构成的数据是图数据。比如金融业务中，账户，设备，银行卡，身份证都可以是图中的点。不同点之间的关系，包括转账关系，登录关系，或者账户间的发红包行为或者帮人助力等任何关系都是图中的边，共同构成图数据。

图算法可以分成两类。一种是基于图论的传统算法，像连通图、Louvain、标签传播和 PageRank 等。另一种是基于深度学习和神经网络图算法模型。比如 Node2Vec、GCN、GAT、GraphSage 等基于深度学习的方法。

关于图数据建设，我们使用分布式的图数据库来做数据的存储。在支付、金融和通讯三个业务板块，根据业务的需求建设不同体量的图数据库。

数据之上我们需要一套系统来承载更多的功能，因此，我们实现了一套整体的知识图谱解决方案的开发：翼支付云篆知识图谱。它包括前端图数据可视化的展示、基于图谱的案例分析，基于图的查询管理功能。

如图是翼支付图谱的整个体系建设，对于底层数据，我们有对应的图谱构建平台。平台之下是一套分布式的存储系统，因为这种百亿级的体量是需要分布式的方案来做的。接着会有整个应用工具库，工具库主要是实现分析、路径挖掘、检验探索、可视化等功能。工具的底层是算法能力，包括传统算法和深度算法的实现，用来作为支撑工具库的基础。我们把这套系统应用在整个金融、支付和通信反查的业务当中。

图学习算法及应用

我们有三部分算法体系，一是基于传统图论的方法，我们称之为基于 SubGraph 的子图挖掘。二是 MetaPath，是基于图模式匹配的。三是基于深度学习图神经网络（GNN）的。

首先介绍 SubGraph 子图挖掘方法。这里举两个例子，通过左图某大规模团伙案例的可视化图可以发现，黑产团伙攻击的行为具有规模大、破坏性强、隐蔽性高的特点。此外，我们在生产中发现这样一个情况：在信贷业务中授信额度认证环节，申请的人提交认证照片的背景是非常相似的（见右图），这就说明它们是在同一个地方进行的认证，可以推断出有很大可能性存在中介骗贷的行为。

那么，为什么要使用图计算作为解决方案呢？

第一，从同质性的角度来考虑，若一个节点和一个非法节点关联密切，无论这个节点是人，设备，还是资质都大概率是非法的。从传播性的角度来说，这是我们认为可以用基于社区发现方法的重要前提。

第二，从稀缺性角度。用图数据一定要保证它的数据上是存在关联性的，关联性的产生原因很重要的就是黑产资质的稀缺性，比如身份证银行卡，猫池卡池这种设备。对黑产来说，为了降低作案成本，他们会把生产资质做复用，比如不同的手机号去匹配不同的身份证注册销户，再重新匹配注册。这个过程中就难免留下一些绑定关联关系。同样，在洗钱或者诈骗中涉及到资金转移，通过转账或商户消费一系列的行为，都一定会留下资金链路的蛛丝马迹。因此，同质性和稀缺性是我们做子图挖掘的思路。

我们面临的挑战首先是将黑产识别全，然后是在于识别的效率。因为对于风控业务来说，我们想实时拦截就要在毫秒级完成整个任务的响应。因此我们的工作基于实时的子图挖掘展开，来满足业务对实时性的要求。

下面介绍实时子图划分的方案，我们借助外置缓存 Redis 来满足实时性的要求。方案的第一步，我们会基于离线数据将整个群组的划分和初始信息的存储好，再放一份到外置缓存中。接着，对于每日增量数据带来的图谱结构的变化，分不同情况进行对应群组计算，保证 Redis 中群组编号为最新映射，从而降低图谱本身群组计算的压力。

对于群组划分方案，如流程图中所示，在更新实体时如果发现该实体为已属于多个群组的实体，则对外置缓存进行以下操作：添加新的群组到缓存中，合并所有该实体属于群组，公式为：

RESULTSET=SETAMATCHED ∪SETBMATCHED ∪⋯∪SETNMATCHED

在业务中，我们有很多宝贵的专家经验，我们要做的就是如何运用好这些经验来精准地识别风险。通过充分利用图数据库 AP 和 TP 的能力，我们实现了查询的离线支持、实施规则推理的部署、实时的数据入图、毫秒级响应等功能。

接着我们来看这样一个案例：营销行为中，营业员故意隐瞒活动信息，将高价值营销物品私藏，用低额转账代替，这是典型的活动欺诈，同时，随着营业员反侦意识的提升，可能持有多个账号，一个进行办理订单另一个进行转账，规避风控检查。对此，业务专家抽象出 schema 图，图中的每个流程看似正常，不过结合在一起就会发现符合业务专家经验的欺诈风险模式。我们把这个模式抽象出来基于 Cypher 进行表达，可以为整个库上的实时查询能力做支撑。

同样，对于非技术背景的同学，我们也专门做了一个模块，可以通过点选和拖拉拽操作，把想要的节点和模式勾选出来，从而实现进一步的条件过滤和筛选，以提升工作效率。

在洗钱的场景下，会存在图中这种分散转出、集中转入的模式，对于图来说，其的本身的查询能力可以很好地胜任对异常结构的描述。

我们基于业务经验梳理出来异常的单元结构，并在全图上进行统计。得到数据后我们可以做以下两个工作：第一是异常检测，将模型输出的 Embedding 和其他的属性拼接，去进行分类或者聚类去判断账户是否异常。第二是基于不同 Pattern Cnt 做用户的风险的评分，再把这种评分输入下游的机器学习分类任务，可以很好地提升已知的业务信息和已知其他的机器学习模型的推理的准确率。

最后是基于 GNN 的方法，对于洗钱的案例，较难用一种固定的单一模式来描述，因为实际业务中是千变万化的。因此，问题来了，对于非固定 pattern 的拓扑结构和属性信息，应该如何精确地表达识别呢？对此，我们想到了 GNN 的方法。GNN 最擅长的就是我们把拓扑信息和属性信息结合起来，需要面对的挑战是在数据量非常大的部署 GNN 模型，比如在百亿级的体量上直接跑一个 GNN 的模型。如果是纯内存非分布式的方案，成本消耗将非常惊人，整个训练收敛难度非常大。

对此，这里有两个思路，第一是利用支持 batch 的架构。第二，是从降低数据上的思路上解决问题，来筛选掉大部分的正常用户。第三是基于用户的行为 pattern，可以通过基于时间的划分来观察每个时间段用户的行为分布的 pattern 来判断洗钱者和正常人的区别。

如图是我们整个 GNN 的方案。首先是对图做了切割，把大量正常用户过滤掉，剩下的这一部分就是我们觉得有风险的用户。从数据层面来说降低了计算压力。下面又分了三部分，第一部分是 GNN 的模型来产生用户的评分。第二个就是基于资金折损的角度得到的用户评分。第三部分就是基于用户 pattern 得到的评分，求和后得到 Risk Score 整体洗钱风险的总分。

未来展望

最后想跟大家一起探讨一下我们未来可能会有的应用方向。

在数据方面。我们其实会有两部分的需求。第一部分是大规模分布式的原生图数据库，因为用单机不可能承载这么大的数据量。第二部分是数据库的实时插入和保持数据一致性的能力以及时序图数据能力，因为群组会随时间维度信息变化，这种演化的时序信息在数据库存好，才能为后面做更好的应用。

在系统方面，我们会侧重两点。第一个是自动规则挖掘。我们现在已经可以很好地把专家的经验通过人工的方式做挖掘，那么在我们构建的图业务数据中，自动地挖掘出可疑的规则，来极大地降低人工工作量，是我们努力的方向。第二个是可解释性的预警，对于金融机构，面对的用户的投诉监管，整个检出的准确率可能受到质疑。那么如何利用好图的可解释性，也是我们在系统方面的挑战。

在算法方面，第一是分布式的图训练框架，基于 batch 的方式构建。比如 DGL 或者 PyG，他们有很好的分布式训练框架方案，来真正实现工业界上大规模数据的训练。第二点是多模态异构数据的融合，我们现在更多依赖 node attribute 信息，未来还有一些基于 NLP 的信息，怎么把这些信息融合到一个框架里面来做 GNN 训练，更好更全面地识别风险，也是会一个很好的方向。第三块就是图的联邦学习，图联邦重要在于关联性的构建，如何在数据彼此不完整的情况下，把这种各方的关联性的数据基于联邦学习的方式融合到一起，也是我们探索的方向。最后一点是对监管的要求。我们监管上做了很多的工作，包括行业的一些风控和金融算法的认证和标准的制定工作，对于对抗攻击的鲁棒性，对用户隐私的保护，对算法公平性的保障等，这同样是我们未来的一个大的趋势。