硬货-如何用风控拯救下架的小红书（天域屠龙）

来源：半佛仙人（ID:banfoSB）

这两天互联网圈最大的热门事件是，小红书下架了。

7月29日晚间，各大安卓应用市场的小红书APP暂时不提供下载。

作为国民级种草APP，小红书的下架既是意料之外，也是情理之中。

意料之外在于，小红书本身只是一个主打消费的内容社区，本身不具有攻击性。

情理之中在于，小红书是C2C模式，笔记内容可以随意发布，任何人用任何方法都可以发布任何内容。

正常人可以，微商可以，特殊工作者可以，黑产也可以。

对于一切C2C的工具类平台产品，只要能发布内容，其实内容失控的风险都是存在的，不仅是小红书。

之前的即刻，Soul，乃至网易云音乐，都存在内容失控的情况，话题广场，论坛，评论区，用户昵称，甚至私人对话，只要可以录入文字图片和语音的地方，就存在着失控的风险。

毕竟产品是简单的，人性是复杂的。

平台治理和内容安全也归属于大风控的范畴，作为一名风控从业者，在这方面，我有一些实战经验。

这篇文章，我打算从内容风控和平台治理的角度来谈谈行业当前的现状与困境。

内容失控，对于所有电商和社区类产品而言，都是致命的。

尤其在互联网文明越来越重要的今天。

小红书作为C2C的工具类平台，用户是可以自己上传图片和笔记的。

同时小红书又是Top的种草平台，用户逛小红书就是买东西的。

自由的规则配合精准的潜在消费者，二者一结合，就成了一块超级美妙的流量蛋糕，肥的流油。

于是各种违禁黑产，色情交易，非法医美，就都来了。

在下架前，小红书通过一些关键词索引，可以获得各种神奇的服务，当然现在已经开始大规模屏蔽。

例如粉毒和非法医美；比基尼和特殊服务；增高减肥和黑五类保健品；银行卡电话卡和黑产资料。

这些笔记的特点都是打着攻略分享的名义，往卖家的私人微信号上导流，然后用话术诱导成交。

这种自发性的C2C传播，也是小红书产品本身的最大特点。

很多不法商家在利用小红书这个平台，大发横财。

小红书作为平台方，有苦难言。

我不想去讨论小红书作为平台有没有责任，毕竟内容是用户自发的，这块我不够专业。

我想讨论的是，用什么方法可以有效治理掉这些垃圾内容，小红书的风控和平台治理们也在头疼这件事情。

作为风控同行，我想提一些建议，这些源自我的一些实战经验，希望能对他们以及读者有所帮助。

OK，小红书当前面临的核心问题是，C端用户上传的内容具有很大的不可控性，里面可能夹杂了大量的违法违禁内容，需要有效识别这些人，然后针对性屏蔽和封号，在保证正常用户体验的前提下，降低内容风险。

当然，不管是降低内容风险，还是保证用户体验，其核心目的都是要保证企业的商业利益最大化，这是大前提，风控要为业务服务。

所以一切手段最终都要平衡误*率和ROI。

那么，我们开始。

关于违规内容屏蔽，目前业内主要使用的是外采词库以及内部维护一套动态词库。

所谓外采词库就是有专门的供应商会做涉及敏感领域的词，支持API的形式直接调用，可以嵌入到用户昵称录入，文本上传，用户私信等模块，只要上传文本，都会进行一次词库过滤，把一些违禁的词给抓出来。

优点是快速上线，缺点是词库是暗箱状态（属于供应商），并且业务关键数据容易泄露（API调用的入参容易被供应商拿走商用）。

我知道小红书的供应商是哪家，我也测试过很多家，只能说通用词库是没法依据实际业务场景来做精准打击的，建议小红书自建词库，如果没有现成可配置的词库框架，可以使用脚本的方式来让研发维护一套词库，当然最好还是做成可配置的，毕竟用脚本的话，词多了很容易崩溃，不是长久之计。

有了这一套东西后，需要一套应用策略，包含敏感词收集策略，敏感词应用策略，敏感词处置策略。

所谓敏感词收集策略，要解决的是如何获取到有效的敏感词。

很多人工智能公司吹捧所谓自然语义识别，用机器学习做，在这里是不好用的，我要提醒一下小红书，不要迷信机器学习。

因为汉语是博大精深的，使用谐音字，变体字，火星文，以及中间夹杂各种特殊符号和空格的模式，很容易就能绕过机器。

就微信这个词，可以变种成V信，VX，威，VV，你懂得，威X信等等等等，机器学习做不到这么精准的打击，但人的识别配合SQL以及Python代码，可以实现。

在这里，建议使用实时数据库，配专门的数据分析师来做词语收集。

数据分析师可以通过一些基础的违规信息，来进一步人工延伸出索引规则，例如微 ` 信12345，就可以提取出某些关键字（用微这个字来做索引），某些特殊符号，甚至某些符号数字的特征来抓。

一个熟练的风控数据分析师，一天抓出上万有效敏感词不是问题。

所谓敏感词应用策略，要解决的问题是这些敏感词用于哪些领域。

当你有了一个敏感词库时，你需要对每一个词进行打标签，例如*人这个词是A类标签，吃奶这个词是B类标签，不同的业务场景以及电商品类，要使用完全不同的标签。

例如牛奶类的笔记，用吃奶这个词就会误伤很大。

这里需要做的是，给每一个场景的业务都打上标签，然后依据标签来使用敏感词库中的词类目。

例如口红类笔记要用ABC标签的词。

例如旗袍类的笔记要用CDF标签的词等等。

至于如何拆解品类打标和敏感词，这个就不展开了，展开必是长篇大论。

所谓敏感词处置策略，要解决的问题是内容命中了敏感词之后，要如何处置这些内容。

这里其实也牵涉对敏感词的打标，主要是设置敏感词处置权重。

例如黄恐暴类的敏感词，标签对应的处置手段应该是直接屏蔽封号或者直接禁止发布。

例如疑似推广微信号的标签，对应的处置手段应该是屏蔽禁言，或者禁止发布。

例如命中了一些权重较弱的敏感词或者敏感字，对应的处置手段应该是转人工审核，再发布。

当然这里只是举几个简单的例子，敏感词的应用方法还有很多，不过这个方向是目前比较成熟的模式。

除却敏感词之外，小红书的笔记中还含有大量的图片类内容，这些图片类内容目前主要的问题有2个。

第一个是黄恐暴类图片，图片本身有问题。

第二个是图片本身没问题，但是图片里面的东西有问题，例如图片里面就有VX：12345等字迹或者水印。

对于前者，建议直接购买现成的图片识别服务，阿里腾讯都有成熟的服务。

对于后者，可以使用OCR把图片转成文字，然后使用敏感词策略来进行处理。

以上是对于内容本身的风控思路，需要注意的是，这个需要投入大量的资源，尤其是人工审核资源，今日头条就有数千人专门做内容审核，对于内容电商来说，这个不能省。

而且内容攻防应该是动态的，不存在一劳永逸的事情，需要做好持久战的准备，汉语就是这么博大精深。

内容风控很重要，但其实只是表层，而且永远难以做到穷举，真的一刀切下去，会误伤大量的正常用户，这对于用户体验和公司的商业价值而言都是损失。

比内容风控更重要的，是底层风控，从用户注册到发生第一次行为（例如发布笔记或者给某个笔记点赞或者评论或者分享），都需要做更深入的风险管理。

除了要管别人发了什么内容，同样还要管是哪些【人】发了这些内容。

通过敏感词体系，可以对大量的内容笔记来进行标签，分类出正常笔记，可疑笔记，捣乱笔记，沙雕笔记等等等等等，这些统称为Y。

风控策略的基础逻辑是F（x）=Y，X是指特征，F是指算法or策略，Y是指效果。

当你有了Y之后，就等于知道了答案。

然后去找这些异常的笔记，都是谁发布的，这些发布的账号的特征（X）是什么。

一般常见的账号特征有数百个维度，例如注册时间，年龄，性别，发布时间，常用标签，ip地址，设备号（imac，imei，device id），手机号，性别，归属地，APP来源（华为市场，小米市场，APP Store），登录模式（APP，小程序，H5），手机型号，GPS地址，LBS区域，用户注册来源（自来水，A活动推广，市场投放转化，CPA），历史行为（点赞数，关注人），浏览行为，等等等等等，这些信息有的来自于APP埋点，有的来自于依据原有特征推算出的衍生特征。

特征工程是风控的核心之一，重要性不亚于策略应用，好的数据是一切的基础。

通过敏感词找到Y，然后利用Y来反推命中的X，然后得出应用策略-F。

案例1，假如小红书发现某个整容类的异常笔记，大部分发布者和点赞者的IP都是相同的或者都是同一个号段的，那么完全可以设置策略屏蔽这个IP段发这个类型的笔记。

案例2，假如小红书发现某些有问题的笔记，都指向同一个微信号，那么就把发布过这个微信号的账号全都封了，连误*都没有。

案例3，假如小红书发现某些有问题的笔记，大部分发布者和点赞者都是24小时内注册的，那么完全可以设置注册时间XXX时间内，不允许在XX领域发笔记。

类似的规则，在成熟的平台治理中，会有数十万条，我做过设计和维护。

这一切的规则，都要做成动态可配置的，做成决策引擎的模式，风控只需要拖拉拽这些标签，然后自己写比对符和阈值，再配置处置手段，就可以生效。

例如一条规则，禁止注册时间在24小时内的女性用户发布比基尼笔记。

拆解起来就是。

注册时间

且性别标签=女，

且笔记标签=比基尼

则，禁止发布，

且，弹出文案【半佛仙人你别比比了】。

把这些做成是否的标签，可以自由配置，快速上线。

夹杂敏感词策略和决策引擎中间，还应该有一层基于【账户】维度的用户关系网络以及实时监控和干预机制，用图挖掘来做。

所谓关系网络，是指不同账户间的关系，由点和线组成。

例如A账户给B账户的笔记点赞或者评价，就会形成一条关系。

反应在网络中就是A点和B点之间出现了一条关系线（A点赞/评论B）。

再例如A账户和C账户同时给B账户的笔记点赞或者评价，就会形成多条关系线。

反应在网络中就是A点到B点（点赞串联），C点到B点（点赞串联），A点到C点（都给B点过赞）。

关系网络，是对于批量作弊账户的大*器。

在实际业务中，通过设置点和线的规则，可以有效拦截批量异常行为。

例如在同一个时间，出现了大量有关联的账户（相同IP，相同操作频率，相同GPS等），与某几个笔记或者账户出现了可疑关联（批量点赞），就可以进行拦截。

例如在近10分钟内，整个的流量池出现了波动异常（分均用户点赞数超过了平均值XX倍），则可以触发警报，把溢出流量关联的内容进行屏蔽等等等。

关系网络更多是横向的对比以及大盘的监控，涉及账户管控，不仅要看横向，更要看纵向。

所谓横向，是指同一个时间里，账户A和账户BCDEF是否有相同的行为或者异常的关联，所有人放在一起来比不同。

所谓纵向，是指同一个账户，在不同的时间里，进行了怎样的操作。

例如A账户，过去六个月都是给一些正常的笔记点赞，浏览和评论都很正常，但是近3天，在密集的跟一些异常的笔记产生互动和分享。

这就是账户出现了问题，与之前的操作不同，需要对账户发出警告，要么屏蔽功能，要么要求实名。

横向是用其他用户的特征比对一个用户，纵向是指用户过去的特征比对当前的行为。

纵横之术是对抗黑产养号与批量作弊的屠龙术。

敏感词策略和决策引擎外，还需要做的是账户准入和APP加固。

所谓账户准入体系，是指在用户注册阶段就拦截掉大量黑产用户。

大量发布垃圾笔记和违禁笔记的账号，往往都是接码平台批量注册了，不是很多人想到一堆人拿着几百个手机在操作，微商很赚钱的好吗，不会干这种low事。

这就代表着，这些注册手机号本身，就有足够多的问题，因为黑产们拿手机号也有成本，往往会多次利用。

这个手机号在小红书耍流氓之前，可能已经在其他平台被教育过了。

一般在注册阶段，建议对手机号加一层准入规则，常规的手段是禁止小号和虚拟号注册，进一步的手段就是采购阿里云和腾讯天御的注册反欺诈评分，输入一个手机号注册IP，可以返给一个评分，分数高于XXX分的时候，拒绝用户注册，或者强制要求实名（人脸或者银行卡）。

阿里有最全的电商黑产库，腾讯有最全的社交黑产库，网易有最全的游戏黑产库，都是T 0实时更新的，土豪一些的公司可以都用，其他自便。

反正只要风控能根据异常笔记抓到注册账户手机号就行，拿这些去测各家的数据准确度与误*率，并不困难。

这个操作在业内叫做加盾，有这一层盾，基本上可以挡掉市场上9成5的黑产，大多数黑产是没有能力绕盾的，因为资金不够雄厚，手机卡更新速度上不去。

账户准入体系外，还需要的就是APP加固。

所谓APP加固，是指对于APP本身的代码，接口做封装和动态加密，拦截接口直接写入内容，代码破解，沙盒，GPS更改等一系列攻击行为，简单理解为是反外挂也可以。

很多APP对于用户的录入内容其实都是有限制的，很多APP甚至不允许用户录入内容，只能选择几个特定的标签。

但是黑产在进行违规内容渗透的时候，往往不是手动填写的，而是直接反编译本地APP代码，拦截接口的动态信息，然后调用接口录入。

例如正常人肯定打不出一些特殊符号，但是通过接口用机器写入，想写什么，就写什么。

小红书社区中的大量明晃晃的违规内容，很有可能是由于接口被攻破，遭遇大量的机器写入，这个在黑产攻防中很常见。

通过机器大量灌入垃圾内容导致竞争对手出现问题，在业内并不稀奇。

所以在账号准入外，也要主要APP本身的加固措施。

敏感词过滤，决策引擎，加盾，APP加固，这4套都做好（需要坐很久很久，这是一个很大的工程），是不是就高枕无忧了？

不是的，作为内容社区，小红书还需要更重要的一套机制，就是用户内容举报机制。

只靠小红书自己，累死他们也不可能挡掉一切的垃圾内容，而且使用策略也好，规则也好，阈值设置比较宽松的话，总有漏网之鱼。

阈值设置过于严格的话，总会有被误*的用户，被误*的用户还会去各个论坛和网络媒体发声，去谴责小红书。

在这个好事不出门，坏事传千里的年代，这种负面信息对于小红书也是一种伤害。

而小红书最大的特点就是用户自发的参与度高，所以一套完善的用户举报机制是非常高效的平台行为。

这套机制不是加一个所谓的按钮点击这么简单，用户看到的可能就是一个举报按钮。

但小红书需要做的是针对整个举报设计完整的SOP（标准作业流程），如何判定举报是否有效，不同举报内容的确认标准以及处罚标准，举报应在什么时间内生效，应该给与举报用户怎样的奖励与支持增加积极性等等等等，这也是一个浩大的工程。

但对于内容社区而言，用户自发举报是非常好用的东西。

以上内容只是基础的平台治理体系，具体的落地方案，执行计划，原始变量及阈值切分等等，受限于保密协议和饭碗的原因，我不方便讲更多，但足够给风控同行做参考了。

而且这些基础体系，在实际操作中，还面临着诸多实务性的难题以及场景契合的问题，很多问题都不是简单的风控问题，需要整个公司的战略和定位一起跟上。

例如在做特征工程的时候，很多数据要求实时性，数仓部门如何满足数据完整性？

例如做策略的时候，需要大量的标准数据，数据产品怎么依据业务需求设计表结构以及数据清洗？

例如评估策略效果的时候，风控产品如何设计分流灰度来做冠军挑战者（ABtest）实现效益最大化？

这样的问题还有很多，其中很多都是牵一发而动全身，公司的资源是有限的，公司里也不是只有风控，大家要靠着业务和营销吃饭的。

这些问题，需要整个公司从上而下认识到这个风险，整体考量业务和风控的平衡，争取公司利益的最大化。

在这个互联网文明大趋势的浪潮下，内容风控将是很多公司的命门，而诸多先行者早就靠自己的积累吃尽了早期野蛮生长的红利，同时树立起了极强的风控壁垒。

这些壁垒需要大量的时间和资源投入，不是一朝一夕就有的，全部都是非卖品。

这对于后来者而言，是非常难的一件事。

但熬过这一劫，就是羽化登仙。

之所以我今天对小红书说了这么多，并不是我喜欢小红书。

而是我觉得，一个活在巨头阴影下的互联网江湖，有点太寂寞了。

查看全文