本文主要讲知识图谱中对相关AI技术及NLP自然语言理解(NER/ER/CR/RE),在爱奇艺产品中的应用,enjoy~
国际研究咨询公司Gartner调查指出,根据人工智能技术成熟曲线,有86%的人工智能技术尚未进入成熟期,但AI技术中也有非常成熟的AI技术,例如:CV(人脸识别、体态识别等)、计算机听觉,MIC拾音提取音素等。
本文主要讲知识图谱中对相关AI技术及NLP自然语言理解(NER/ER/CR/RE)在爱奇艺产品中的应用。
我们看一个视频常常会在视频的旁边看到猜你喜欢,偶尔可能也会在视频上进行弹幕讨论一下视频内容,或者在看视频的过程中会看到与视频中某个内容相关的小广告飘出,还有为了看视频充值而咨询一下人工智能客服,又或者智能医疗,或者网上快速获得贷款的背后的金融智能风控等等。
总结下来AI知识图谱的商业应用需求场景如下:视频推荐,AI鉴黄、广告精准推荐、金融风控、教育(智能排课/监播体系/手写体)、医疗、投资等等。
知识图谱前世:
根据维基百科获得知识图谱历史即前世:知识图谱2012年加入Google搜索,2012年5月16日正式发布,首先可在美国使用。知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。
其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息,即起始阶段知识图谱是Google的一个知识库。
AI知识图谱的今生个人见解:
传统数据库——>知识图谱化,所有传统低效率的数据表现形式(指:数据相关架构、数据结构、数据表、数据库)都会逐步转向高效率的AI知识图谱化。原因是AI知识图谱才是用户想要的数据可视化,怎么理解呢?
例如你搜索连诗路,是一个网页那就是传统数据库展示的结果,如果搜索连诗路显示上海路奇智能科技创始人,AI赋能AI重新定义产品经理等畅销书的作者,那么后者就是AI知识图谱实现的数据可视化。
具体的业务问题是管理爱奇艺视频直播中的禁用词语和黄色视频,首先确定了AI知识图谱应用范围。
然后步骤流程如下:
建立一个禁用语语料库,这个禁用语可以有第三方语料库供应商提供,也可以自己建立,也可以在第三方语料库的基础上进行迭代匹配使用。
在数据收集和处理阶段会用到AI知识图谱的命名实体识别NER技术,也会用到关系抽取RE,实体统一ER、和指代消解ER等NLP的子技术。
原因是数据分为结构化数据和非结构化数据及半结构化数据,结构化是指数据库里的数据,而我们遇到的大多数数据是非结构化和半结构化数据,例如数据库不能直接存取的数据大多是非结构化数据。
以上图直播视频图为例,SS=手速,MS=秒射,而XD=胸大or兄弟?这里就需要AI知识图谱中的NLP的指代消解ER技术来理解处理SS=手速,MS=秒射,然后判断是否需要封锁背后的ID,当然做一款产品还要考虑封了以后的步骤,本文先不多说,日后再开篇撰写。
关于知识图谱的设计有很多原则,总体概述下来有:以理解业务原则、以可以分析为原则、以高效为原则、以含可拓展为原则、以其他规则为原则等等。
但是设计知识图谱过程如下:
(1)需要哪些实体、关系和属性?
连诗路与路奇是两个实体,合伙人是一个属性,智能是另外一个属性,连诗路与畅销书《AI赋能》是两个实体,作者是一个关系属性,还可能有2019年等等属性。
例如下图:
(2)哪些属性可以做为实体,哪些实体可以作为属性?
构建ER实体关系图的时候,有些属性可以作为实体,有些实体可以作为属性,在关系转化中有两条准则如下:
存储上要面临存储系统的选择,但由于设计的知识图谱带有属性,图数据库(区别于传统数据库SQL/MYSQL等)可以作为首选,但至于选择哪个图数据库也要看业务量以及对效率的要求。
如果数据量特别庞大,则Neo4j很可能满足不了业务的需求,这时候不得不去选择支持准分布式的系统比如OrientDB, JanusGraph等,或者通过效率、冗余原则把信息存放在传统数据库中,从而减少知识图谱所承载的信息量。
通常来讲,对于10亿节点以下规模的图谱来说Neo4j已经足够了。
根据实体、属性两个元素完成一个知识图谱的构建,步骤如下:
构建知识图谱如下图所示:
知识图谱的实例化是指为知识图谱中的实体和属性设置条件、为属性设置参数以及为实例设置标准答案的过程。一个知识图谱可以有多个实例,每个属性实例拥有一个标准答案。
实例化过程如下:
以上完成了一个实体及其属性的实例化,同一个实体可拥有多个属性实例,如对象实例“奇秀充值”的属性实例可包括“电影”、“直播刷礼品”等。
基于知识图谱的答案搜索首先需要进行中文分词,根据中文分词结果从知识库中搜索匹配,实例化知识图谱如下图所示:
如上图所示流程中,系统依次从分词结构中检索实体、条件、属性、参数,确定实例化的属性,并返回实例化属性对应的答案,完成答案搜索。
首先是阅读书籍和在实践中学习的方法第一本是AI产品思维:
《AI 时代产品经理的思维方法》
《AI赋能:AI重新定义产品经理》AI技术助力,AI技术落地产品赋能的案例及去哪里学的方法。非常畅销,得到多位圈内朋友推荐。
连诗路,公众号:LineLian。人人都是产品经理专栏作家,《产品进化论:AI 时代产品经理的思维方法》一书作者,前阿里产品专家,希望与创业者多多交流。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash, 基于CC0协议
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved