算力、算法和数据被称为是人工智能的“三驾马车”,其中,数据被公认为人工智能算法的“燃料”。而在人工智能领域还流传着一句话:有多少人工就有多少智能。的确,目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。据估计,在中国有约千万名“人工智能训练师”在给人工智能“喂数据”。
2023年4月11日,国家互联网信息办公室发布的《生成式人工智能服务管理办法(征求意见稿)》第八条提出,生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。可见,人工智能训练师与数据标注已成为推动人工智能产业健康发展的重要一环。
人工智能的发展离不开数据标注
数据是人工智能的血液,业内甚至将数据称为“新的石油”来体现它作为将人类智能转化为机器智能原材料的重要性。据称数量越多质量越高的数据,往往越能够训练出更“聪明”的模型。甚至有业内公司表示,“人工智能的发展离不开数据标注,没有数据标注,就没有人工智能。没有数据标注,就没有无人驾驶、刷脸支付、阿尔法狗、智能音箱。”
就像从零搭建一座结构精密的建筑,每个AI的成长都会经历人工训练的过程。
所谓数据标注,指的是对未经处理的语音、图片、文本、视频等原始数据进行归类、整理、纠错和批注等加工处理, 使其成为结构化数据让机器可识别的过程,从而让AI更容易识别数据,进而更好地认识这个世界。而完成这一过程的人工智能训练师,便相当于机器人的“教练”或“老师”。
中科院自动化所研究员王金桥在接受采访时表示,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。因此,“标注是一个必须的工作。”王金桥说。
例如ChatGPT大语言模型,就对于数据质量和数据类别多样性的要求非常高。需要先根据样本数据进行人工编写答案,再对答案的分类、质量进行标注,最后对模型给出的多个答案输出进行排序,使得模型可以更好地与人类指令保持一致。数据的质量和多样性成为模型优化的关键。
某人工智能基础数据产业基地内正在工作的“人工智能训练师”。图源:科技日报
中国工程院院士邬贺铨曾对人工智能训练师做过解释,他表示:“比如AI训练师会进行智能驾驶的训练。智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”
再比如人的姿态识别,包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。可以说。人工智能训练师的职责是教AI认识人类社会,从而让自动驾驶、工业生产等工作能更智能地工作。
以数据采集和标注作为主要任务之一的人工智能训练师,在2020年也被纳入到国家职业分类目录,成为一种正式的全新职业。在2021年,人社部就发布了《人工智能训练师》国家职业技能标准,覆盖数据标注员、人工智能算法测试员两个工种,可见当时相关产业已经成势。这份标准将人工智能训练师分为5个等级,从初级工到高级技师。
给汽车进行“拉框”,一张图片就要重复数次类似操作。图源网络
人工数据标注帮助AI快速落地
目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。
例如作为数据服务需求最大的行业之一的自动驾驶,仍需要大量的标注数据对模型进行训练和调优。同时,除了“聪明的车”,自动驾驶同样需要“智慧的路”,通过车路协同的共同数据训练,才能实现降本增效。因此,专业、高质量的数据才能够保证自动驾驶的精准和安全。
再如“在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测。”王金桥说。
正在给汽车拉框的数据标注员。图源网络
人工智能训练师是如何进行工作的?
人工智能训练师中的3D类工作,一般是对实际场景中的特定事物进行标注,例如对一条道路上的雷达车道线、雷达目标拉框。接着是语音类,是指对音转文、方言转写、唤醒助手等进行标注。2D类被认为更简单,是指对平面图像、文字段落进行标注,或者是OCR(文字识别)转写,例如对交通违规图片里的人和车、红绿灯、交通标示进行识别。
“我的日常工作主要包括人工智能需求分析、数据标注、算法开发以及算法调优等,其中数据标注和算法开发是最主要的工作。”业内某人工智能训练师称。例如在火情识别算法模型的数据标注及模型训练的过程中,需要他在电脑用标注工具将图片中的火焰逐一圈出来,并标注为“fire”,标注一定数量后将这些图片数据“喂”给人工智能学习,学习后进行测试,再逐张查看人工智能识别火焰的结果是否正确。当发现人工智能将图片里的黄色盒子误判成“火焰”时,则需要他把该黄色盒子重新标注为“非火焰”,对算法进行调优,再对人工智能进行迭代训练,如此往复……一个算法模型的训练,少则需要5000-10000张图片数据,多则要几万张甚至几十万张图片数据。
成人工智能发展重要一环
AI训练师行业机遇与挑战并行
人工智能产业的发展带动了数据标注行业的快速发展。数据标注作为人工智能的基础层,也为人工智能产业高速发展打下坚实的基础,催生了一批围绕人工智能产业链、大数据产业的新模式、新业态,成为数字经济发展的“数据”底座。据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。
未来,随着AI应用场景逐渐多领域化,在行业内部,人工智能训练师从业者也必将随着AI行业而一同进入细分市场追逐阶段,将迎来的是机遇与挑战并行。
责编:方钰洁
监制:李红梅
文章参考:
1.《教AI认识世界的人——揭秘智能产业大火背后的人工智能训练师》海报新闻
2.《ChatGPT背后的数据标注产业链》中国小康网
3.《数据标注师:教人工智能认识世界的新兴职业》中国网科学
4.《数据标注师 人工智能背后的人工力量》科技日报
5.《人工智能训练师:我教AI如何“更懂”人类》广州日报
6.《揭秘人工智能背后鲜为人知的人工力量——数据标注》人工智能学家
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved