海天瑞声688625--训练数据:声音、图像(人工智能)

海天瑞声688625--训练数据:声音、图像(人工智能)

首页传奇手游海天185轻变更新时间:2024-10-03

公司主营是训练数据,现阶段以语音、图像为主;“训练数据”是数据挖掘的一个环节,可以理解为人工智能的“采矿--选矿--初加工”,为下游公司微软、阿里、腾讯等等提供“原材料”。

公司亮点:

1.作为A股目前最纯正的人工智能标的,短期投机价值极大,长期作为人工智能方向跟踪研究标的。

2.*有中国移动、中网投,入股估值19.9亿元(发行估值15.81亿);

3.客户微软、阿里、腾讯、三星、字节跳动;

4.募投项目:扩大“采矿--选矿--加工”能力(募集资金少了约3.6亿)

5.对比APPEN最高市值约200亿人民币,当前市值74亿,瑞声的营收规模是其十分之一(2.3亿),盈利三分之一(0.7亿)。

缺点:

1. 毛利较低,低于40%;

2. 短期看不到确定的成长性。

简单侃侃人工智能:通过储存翻阅人类棋谱,战胜人类国际象棋大师的“深蓝”只是计算机;通过算法学习人类棋谱,并且能够通过算法,“自主”出棋能超越棋谱的“阿尔法狗”就接近人工智能了。训练数据就是阿尔法狗吃了能够成长的狗粮。

本文将从训练数据的含义、公司产品及盈利模式、竞争对手情况、客户等方面论述公司的价值。

资料收集过程中,看到了独角兽旷视科技的产品YOLOX(训练数据集--目标检测,已开源),很多开发者都在用,并且各项参数优于Google的同类工具EfficientDet(七、其他,附了应用的截图)

一、训练数据

1. 定义:

训练数据指通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据。

发行人的产品和服务的交付物为成品训练数据集,内部包含数据文档、说明文档、技术文档,其中数据文档是交付物的核心,包括数据文件和标注文件。以语音识别训练数据为例,训练数据由一段段语音录音的数据文件和相关的标注文件构成,标注文件将告诉机器和算法与语音相关的多种信息,包括语音对应的文字、所代表的具体意思、说话者的情绪等等。

标注指训练数据的生产步骤之一,指对原料数据进行加工,进而生成符合算法模型训练要求的训练数据的过程。

通俗理解,训练数据是采集有训练价值的数据(符合某种逻辑、规律),通过计算机语言将其数字化;下游厂商可以将这种数据代入算法模型中,让计算机进行深度学习。

举例:训练数据就是“60 62”,代入算法模型中,就可以得出学习结果“64”;公司做的业务就是通过数据采集,找出“60 62”

语音数据更复杂一些,比如河南方言“中”、“中中”、“中中中”、“中中中中。。。”,要想让计算机明白上面四种“中”的意思,就需要采集不同语境下、说话者的情绪来判断到底是“中”还是“不中”

1. 训练数据的作用:

算法、算力、数据是人工智能技术发展的三大要素,其中训练数据是算法发展和演进的“燃料”。在当前技术发展进程中,深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节:训练需要海量数据输入,训练出一个复杂的深度神经网络模型;推断指利用训练好的模型,去“推断”现实场景中的待判断数据,并得出各种结论。训练数据越多、越完整、质量越高,模型推断的结论越可靠。因此,要使算法模型实现从技术理论到应用实践的落地过程,就需要提供大量的训练数据,对算法模型加以训练。

通常,从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练,必须经过专业化的采集、加工处理,形成相应的工程化数据集后才能供深度学习算法等算法、模型训练使用。

土地(自然数据,日常聊天的语音)里富含各种元素,但是不能统统定义为矿;矿(专业化采集、加工处理)也分富矿和贫矿;找到富矿,并做粗加工。

2. 作业模式

发行人的业务过程主要是下述几方面工作:①为了实现更好的算法模型训练效果,发行人需要对训练数据集的结构和内容进行设计;②需要采集大量数据,比如声音、文本、图像、视频;③需要对采集到的数据进行加工,把需要让算法学会的信息,通过标注的方式告诉算法;④而在采集、加工的过程中,发行人则要对质量进行把控,持续进行质检。因此形成了训练数据生产的四大环节:设计、采集、加工、质检。

发行人的业务实质是:通过执行设计、采集、加工、质检工作,生产训练数据并向下游 AI 产业链各机构提供,助力其训练算法模型。

通过设计数据集结构、组织数据采集、对取得的原料数据进行加工及质检,形成训练数据集。。发行人的主要产品、服务均以训练数据集为核心。成品训练数据集主要由数据文档、说明文档、技术文档三部分构成,并以软件形式向客户交付。

3. 测试数据

测试数据用于数据的分类和回归。引入“测试数据”,便于理解“训练数据”;两者是决定算法模型的准确率的关键因素。

例如:

训练数据:我家的狗是哺乳动物、有四条腿、背上有一撮红色的毛等等,这类数据越复杂,准确度越高;训练数据不足会导致算法欠拟合。

测试数据:背上有一撮红色的毛是狗,这类数据过于复杂就会形成过拟合,反而会降低模型的准确度。

二、产品及盈利模式

发行人并非 AI 产业链上的算法模型研发商或提供商。发行人主要为 AI 产业链上的各类机构提供算法模型开发所需的训练数据,服务于下游人工智能行业发展。

采矿公司并不是合金产品研发方或提供方,公司毛利较低(普遍低于软件行业,人才、劳力密集型);或者理解为CXO前的大分子堆砌、先导化合物库,产业链分工更像(不是创新药产业链上的中间体研发商和提供商)。

基于下游客户需求和发行人所从事的训练数据业务特点,发行人在生产训练数据过程中需要大量劳务人员提供原料数据采集、标注服务。发行人通过对接数据服务供应商的方式解决劳务服务需求,数据服务供应商主要为人力资源外包服务公司,具备寻找符合发行人需求的终端人员并组织其向发行人提供数据采集、 标注服务的专业能力。在部分具体训练数据生产项目中,涉及的终端采集、标注人员数量较多,且覆盖的语种、口音区、年龄特征等要求多种多样,再加之发行人劳务服务通常具有较为迫切的及时响应需求,数据服务供应商等也采取与不同 类型终端人员的组织人员(即“小外包人员”)对接的方式,组织终端人员为发 行人提供相应服务,因此发行人数据服务采购模式符合行业惯例,具备商业合理 性。发行人与数据服务供应商、小外包人员、终端人员之间的合作模式、实际业务执行过程等情况。

报告期内,发行人主要从事训练数据的研发设计、生产及销售业务。

根据具体业务模式差异,发行人提供的主要产品和服务又可分为下述三类:

(1)训练数据定制服务(智能语音、计算机视觉、自然语言)

发行人根据客户需求提供训练数据定制服务,具体形式包括: ①采集 加工服务:发行人根据客户需求设计训练数据集结构、组织原料数 据采集、对采集到的原料数据进行加工,最终形成定制化训练数据集。该类业务主要满足算法模型对模拟场景的学习需要,数据规模越大、覆盖越广、质量越高则模拟度越强,训练效果越好。 ②纯加工服务:客户提供原料数据,发行人根据客户需求进行加工,形成定 制化训练数据集。该类业务主要服务于算法模型对实际场景的再学习需求,即发行人对实际场景数据进行加工,使算法模型可运用加工后的数据进行迭代学习, 提升对实际场景的判断准确度。 在训练数据定制服务业务类型下,发行人为客户提供训练数据集定制服务, 最终形成的训练数据集成品的知识产权由客户享有。

(2)训练数据产品

发行人根据市场需求,以及对算法技术应用前景、发展趋势的评估预判,开 发训练数据产品,开发完成后授权客户使用。该类业务也主要满足算法模型对模 拟场景的学习需要。 在训练数据产品业务类型下,发行人最终生产的训练数据集成品的知识产权 由发行人享有,一次生产完成后可重复多次销售使用权。

(3)训练数据相关的应用服务

发行人基于其生产的训练数据提供算法模型相关的训练服务,运用训练数据 研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高 AI 技术应 用效果。 训练数据相关的应用服务的具体内容包括:①依据客户需求,在客户通用算 法模型的基础上,为客户定制开发特定语种/方言、应用领域的算法模型;②使 用特定语种/方言、特定应用领域的训练数据,对客户的算法模型进行训练,使 客户的算法模型实现语种/方言覆盖能力的拓展,满足其在特定行业、地区或者 特定应用领域的运用需要;③客户负责研发/提供核心的算法模型,发行人负责 开发算法模型实现后续落地运用过程所需的用户界面、软件等,及相关的系统集 成工作。

三、竞争对手(Appen)

虽然发行人在国内基础数据服务行业拥有领先的行业地位,但与国际大型训练数据公司,如 Appen 相比,发行人在营收规模、净利润规模、员工数量等指标上均小于 Appen,在体量上具备一定劣势。

国内自然数据是竞争优势,世界第一的人口基数 第一的触网人数(互联网运用深度)。数据是人工智能的饲料,我国又将数据列为第五大生产要素(土地、人力、资金、技术)。

1.财务指标

2. 经营及技术情况

3.Appen股票走势

四、客户

1.目标客户少、体量大

现阶段有实力有能力在人工智能领域投入的公司,除了政府的研究机构,也就只有大型科技公司(及其孵化公司),创新创业型基本上都是产业链的环节。

2.获客方式

发行人获取客户的方式主要包括:

情形一:于公司成立初期即开始合作,早期客户开拓主要来自公司创始人贺 琳多年积累的人脉基础;

情形二:通过学术会议接触,之后经过客户拜访、意向接触、商务洽谈等步 骤建立合作关系;

情形三:因公司在行业内有良好的口碑,合作过的客户向业内其他客户推荐 发行人从而建立联系,进而开展合作;

情形四:通过网络挖掘,获得客户的公共联系方式,然后有针对性地向客户 发送邮件主动进行宣传推广,进而建立联系、开展合作;

情形五:通过电话销售,获得客户联系人信息,进而通过邮件沟通、客户拜 访等方式获取客户需求,进行合作;

情形六:客户通过公司官网主动向发行人留言咨询,后续通过意向接触、商 务洽谈等步骤建立合作。

3. 主要客户(2017~2020)

五、主要财务指标(短期成长性较差;未来非线性,临界点难觅)

公司的营收和利润增速较慢,受下游影响较大;AI当前四大问题--“算力太贵 数据太傻 训练太慢 应用太浅”。核心原因还是应用太浅,目前的AI还属于实验室里的胚胎阶段,没有现象级产品。

科大讯飞的同声传译

哔哩哔哩的二次元主持人

腾讯的王者绝悟

非主流的国际知名网站AI换脸技术

最有希望第一个跑出来现象级应用可能是特斯拉的智能驾驶辅助系统,还在疯狂的吃数据迭代中。

经公司初步测算,公司预计 2021 年 1-6 月实现营业收入约 12,750 万元至 14,025 万元,同比增长约 25.07%至 37.58%;预计实现归属于母公司*的净利润约 4,650 万元至 5,115 万元,同比增长约 0.74%至 10.81%;预计实现扣除非经常性损益后归属于母公司*的净利润约 4,185 万元至 4,604 万元,同比增长约 0.54%至 10.61%。(毛利还在降)

六、募投

按照发行价实际只能募集3.9亿元,发行市值约15.81亿元。

2019 年 12 月 4 日,海天瑞声召开临时*大会,会议通过决议,同意向中移投资、中网投(中国互联网投资基金)分别定向发行 81 万股、129 万股股份,每股认购价格为 62 元;对应估值19.90亿元。

七、其他:公司概况、核心技术(选读)

(一)主营业务概述 1、概述 报告期内,发行人主要从事训练数据的研发设计、生产及销售业务。发行 人通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形 成可供 AI 算法模型训练使用的专业数据集,通过软件形式向客户交付。发行人 所属行业为软件和信息技术服务业。 算法、算力、数据是人工智能技术发展的三大要素,其中训练数据是算法发展和演进的“燃料”。在当前技术发展进程中,深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节:训练需要 海量数据输入,训练出一个复杂的深度神经网络模型;推断指利用训练好的模型,去“推断”现实场景中的待判断数据,并得出各种结论。训练数据越多、越 完整、质量越高,模型推断的结论越可靠。因此,要使算法模型实现从技术理论 到应用实践的落地过程,就需要提供大量的训练数据,对算法模型加以训练。 通常,从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练,必须经过专业化的采集、加工处理,形成相应的工程化数据集后才能供深 度学习算法等算法、模型训练使用。 海天瑞声是我国领先的训练数据专业提供商。自 2005 年成立以来,发行人 始终致力于为 AI 产业链上的各类机构提供算法模型开发训练所需的专业数据集。 发行人所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、 自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种 创新应用场景。其中智能语音为发行人的优势领域,产品线已包含 160 余个主要 语种及方言。 海天瑞声的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威 视、微软、亚马逊、三星等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、智能驾驶、机器翻译等多种产品相关的算法模型 训练过程中。目前海天瑞声客户累计数量超 500 家,覆盖了主要的大型科技公 司、人工智能企业及科研机构。

在多年经营中,发行人高度重视自身核心技术优势的构建,在基础研究和产 品研发两个维度持续投入。凭借多年研发积累,公司已经构筑了较为明显的核心 技术先进性,主要体现在下述方面: 1、算法与数据处理技术并用:公司已掌握 12 项核心技术,通过算法与数据 处理技术并用,可以满足算法在不同应用场景下的训练数据需求,可对大规模数 据进行高效的加工或质检。截至 2020 年 12 月 31 日,公司已积累 760 余个自有 知识产权的训练数据产品,可提供超过 160 余个语种/方言的训练数据。 2、工具和平台共建:公司自主开发了一体化数据处理平台,融入项目流程 管理、质量把控、数据安全管理,嵌入生产所需的各类工具、软件模块,可实现 高效、高质的训练数据生产,提升生产效率及质量控制水平。 3、在语音语言学基础研究方面有深厚积累:公司建立了成熟的发音词典构建流程、积累了深厚的语音语言学基础研究成果。截至本招股说明书签署日,公 司的产品/服务已覆盖 160 余个语种/方言,公司已积累下超过 100 个语种/方言的 发音词典,累计词条数超过 1,000 万条,可构建高质量的智能语音训练数据。 截至目前,公司已经取得 24 项发明专利、1 项实用新型专利授权及 1 项外 观设计专利授权,134 项计算机软件著作权,另有 2 项专利已提交申请。多年积 累的核心技术和专业服务能力,使得公司能够更大规模、更有效率、更加精准地 生产训练数据,在提升自身产出效率的同时也有效提高了训练数据对于客户算法 模型的改善、优化效果。 按照产品和服务的具体类型划分,发行人的主营业务可分为训练数据定制 服务、训练数据产品和训练数据相关的应用服务。

贺琳,女,1968 年 7 月出生,中国国籍,无境外永久居留权,毕业于北京 大学。1987 年至 2017 年 7 月任职于中国科学院声学研究所,从事语音识别、语 音合成、汉语语言理解、语音心理测试等方面的研究工作,先后参与了“汉语 人-机语音对话系统工程”、“汉语语音参数合成”等国家自然科学基金重点项目、国家八六三计划智能计算机主题项目和中国科学院“八五”重大项目,完 成《计算机汉语口语输出系统的设计与实现》等论文十余篇,参与编写《汉语语 音合成-原理和技术》著作。贺琳为海天瑞声创始人,现任公司董事长。

唐涤飞,男,1970 年 12 月出生,中国国籍,有美国永久居留权,硕士,毕 业于中国科学技术大学,获得通信与电子系统专业工学硕士学位。1996 年至 1997年,任联想集团技术中心项目负责人;1997年至2010年,历任微软中国研 发中心中文技术部项目经理、微软亚洲工程院资深项目经理;2010 年至 2012 年, 任阿里巴巴云计算公司数据应用与服务、无线平台的产品及项目总监。2013 年 3 月加入海天瑞声,现任公司董事、总经理。

李科,男,1981 年 8 月出生,中国国籍,无境外永久居留权,硕士,毕业 于清华大学,获得信息与信号处理专业硕士学位。2006 年至 2009 年任 IBM 中国 技术开发中心软件工程师。2009 年 10 月加入海天瑞声,现任公司董事、副总经 理。

黄宇凯,男,1983 年 5 月出生,中国国籍,无境外永久居留权,硕士,毕 业于复旦大学,获得计算机科学与技术专业硕士学位。2008 年至 2018 年,历任 微软(中国)有限公司软件研发工程师、必应网页搜索部门研发主管、地图中国 团队首席研发总监等职务。2018 年 12 月加入海天瑞声,现任公司董事、副总经 理、技术总监。

郝玉峰,男,1974 年 5 月出生,中国国籍,无境外永久居留权,博士,毕 业于东南大学,获得生物医学工程专业博士学位。2005 年至 2008 年,任北京捷 通华声语音技术有限公司技术研究部经理;2008 年任杭州红杉树信息技术有限 公司高级研发工程师。2008 年 12 月加入海天瑞声,现任公司副总经理、技术总 监、首席科学家。

曹琼,女,1982 年 10 月出生,中国国籍,无境外永久居留权,博士,毕业 于北京航空航天大学,获得检测技术与自动化装置专业博士学位。2008 年至 2017 年,任富士通研究开发中心有限公司高级研究员。2017 年 5 月加入海天瑞 声,现任公司计算机视觉业务部总监。

吕思遥,女,1983 年 8 月出生,中国国籍,无境外永久居留权,硕士,毕 业于北京大学光华管理学院,获得会计学专业学士学位,中国人民大学财政与 金融学院金融学硕士学位,中国注册会计师、国际注册内审师。2005 年至 2011 年,任普华永道中天会计师事务所审计师、高级审计师、经理;2011 年至 2012 年,任英特尔(中国)内部控制经理;2012 年至 2014 年,任北京新合作连锁超 市有限公司财务总监;2015 年至 2016 年,任英特尔(中国)信用管理高级经理。 2016 年 8 月加入海天瑞声,现任公司董事、副总经理、财务负责人、董事会秘 书。

志鹏,女,1972 年 6 月出生,中国国籍,无境外永久居留权,硕士,于清 华大学获得计算机科学与技术专业工学学士学位,于剑桥大学获得哲学硕士学位。1996 年至 2004 年任职于微软公司,2006 年至 2011 年任职于 TLcom Capital, 2012 年至今,任职昆山青石投资管理有限公司执行董事兼总经理;2013 年至今 任清控资产管理有限公司专务副总裁。2016 年 4 月至今任公司董事。

不是荐股,做个记录,日后回顾。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved