【科学强国】ChatGPT背后的数据标注产业链
制作于公元前196年的罗塞塔石碑(Rosetta Stone),刻有古埃及国王托勒密五世登基的诏书。
石碑上用古希腊文、古埃及象形文以及当时埃及平民使用的通俗体文字刻了同样的内容,这让考古学家解读出失传千余年的埃及象形文的意义与结构,找到读懂古埃及的密码。在AI领域,为了让机器读懂人类世界,同样有一块“罗塞塔石碑”——数据标注,它的存在让大规模训练数据的机器学习成为可能。
图源:中国小康网
人工智能在变得更聪明更有人情味的过程中,离不开数据标注这个产业链。ChatGPT的火爆,会带动数据标注行业的高增长吗?我国数据标注产业目前的发展状况如何?为此,《小康》杂志、中国小康网采访了业内资深从业者一探究竟。
数字经济的发展底座
所谓数据标注,指的是对未经处理的语音、图片、文本、视频等原始数据进行加工处理, 使其成为结构化数据让机器可识别的过程。
算力、算法和数据被称为是人工智能的“三驾马车”。过去的十多年时间里,数据、算力、算法等技术的创新和迭代,可以说是“大爆炸”式的发展。这里的数据,更精确地表述为数据集,用于人工智能算法模型训练,被公认为人工智能算法的“燃料”,是实现人工智能技术与产业结合能力的必要条件。
近年来,人工智能产业的发展带动了数据标注行业的快速发展。数据标注作为人工智能的基础层,也为人工智能产业高速发展打下坚实的基础,催生了一批围绕人工智能产业链、大数据产业的新模式、新业态,成为数字经济发展的“数据”底座。
数据在AI发展过程中极为重要,业内甚至将数据称为“新的石油”来体现它作为将人类智能转化为机器智能原材料的重要性。但放眼整个AI行业,数据的受关注度远没有AI三元素的另外两个元素——算法和算力高。
造成这个结果的最主要原因就是数据标注行业是一个劳动密集型的产业,“足够廉价的劳动力”是数据标注公司的一大标签。
整数智能信息技术(杭州)有限责任公司致力于为AI领域企业提供数据服务。其联合创始人赵子健接受《小康》杂志、中国小康网采访时表示:“目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说数据决定了AI的落地程度。AI的发展离不开海量的数据去做训练和喂养。如果说人工智能是一片矿,不管哪一块需要挖矿,都需要有矿工和挖矿的机器,而数据就可以理解为是挖矿的机器。作为底层的基础设施,每一波的人工智能发展,作为提供数据服务的公司都能从中获益,同时也面临着更多的挑战、机遇、发展前景和更大的市场。”
《小康》杂志、中国小康网了解到数据标注行业有一套分工流程:巨头把任务交给中游的数据标注公司,再由中游包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散户”,比如兼职学生。一单生意几经转手,就造成了行业众包中介层叠越来越严重,利润所剩无几。然而,实际情况是怎样的呢?
赵子健说:“不同公司定位不一样。有些公司没有产品技术研发的实力,能做的事情类似倒卖。一些小的城市,可能薪资较低,他们就适合做人力型团队,提供数据标注员。”
《小康》杂志、中国小康网进一步了解到,做标注和外包审核这部分业务的公司人员流动性很大,因为这个业务比较枯燥,做的是纯一线的重复性劳动,加之其他一些不稳定因素,一般公司会优先保证重要项目不出现人员断档。
国内做数据标注业务的公司很少有单业务链,比如内容审核集中在二三线甚至更小的城市,给的薪资相对会低。而做内容审核、内容标注等这类业务的公司集中在天津、成都、重庆、西安……相对消费水准低,投入成本也低。
一位不愿具名的业内资深从业人士告诉《小康》杂志、中国小康网,ChatGPT国产化有个非常大的风险,通过大量的数据训练机器人,跟所有的人对话,这个过程中其接触到的数据有很多可能是有问题的。有很多信息需要进行拦截,比如一些非法的信息。没有经过拦截的信息一经流出,就有可能变成变相的宣传渠道。如果没有专门的人力对这方面的内容加以把控的话,就会成为被利用的渠道。
为了方便管理,比如担心内容外泄,较大的互联网公司都早早开始自建基地或者子公司,在安全和管理上更好把控,但成本会更高。字节跳动很早就自己建设基地,全国各地大概有六七个城市都有基地。以子公司来做数据标注,更多是基于安全的考虑,比如涉及黄赌毒的内容,有很多是不能流出的。必须承认外包业务泄露的风险要比自己公司泄露的风险大。然而,从成本上考量一定是外包公司更好。
中国数据标注产业崛起中
数据标注是计算机感知世界的起点,全球数据标注行业是伴随全球人工智能产业发展而生的。最早可以追溯到上世纪90年代,深蓝战胜国际象棋世界冠军加里·卡斯帕罗夫,全球人工智能产业发展进入新的探索期,1996年澳鹏(Appen)诞生并开始布局数据服务领域业务。2007年数据标注行业正式拉开序幕,始于斯坦福大学教授李飞飞等人的ImageNet项目,该项目要通过亚马逊的劳务众包平台Mechanical Turk(AMT)来完成图片的标注和处理,得到的数据集供机器算法训练和学习。此后,全球开始涌现出众多的数据标注企业,全球数据标注行业也进入成长期。
从行业供给情况来看,全球数据标注行业企业主要分布在美国、中国、澳大利亚和非洲等国家和地区,但具有一定规模的企业数量相对较少。在美国,数据标注企业较多,突出的特点是技术驱动导向,数据标注服务供给能力和质量较高,代表性企业有Scale AI、Mighty AI、Mturk、Supervise.ly等;欧洲地区代表性企业有塞浦路斯的Mindy Support等。
数据标注行业不被关注由来已久,直到美国数据标注企业Scale AI,用5年时间(2016—2021)实现超73亿美元的估值,才为国内数据标注行业注入了一针强心剂。
此后,随着特斯拉在2022 AI DAY上推出Auto Labelling标注平台,并推出4D标注技术,让更多人知道了自动化标注的存在,也让更多专业的数据标注企业走到台前。
当前,全球数据量仍在飞速增长的阶段。根据IDC发布的《数据时代2025》测算,到2025年,全球的数据生产量将达到175ZB。目前市场上90%以上的数据是非结构化数据,得到有效利用的不足10%,对于这些非结构化的数据只有经过标注处理才能激活其价值,这就产生了源源不断的数据标注处理需求,可以将数据标注处理理解为结构化数据的生产处理,而这些标注企业就是数字经济时代下的新型生产制造企业,生产出来的是“数据集”属性的产品。
在全球数据量指数级的增长过程中,从非结构化到结构化的数据生产,需要大量的数据标注服务,数据标注将大大激活数据价值,提高数据质量和发挥数据要素的作用。
“目前相对来说,人力成本比较便宜,国内数据标注业发展的时间节点会比美国机器替代人力的时间晚一些,业内已经开始有公司用自动化的方式去替代人力,去提高数据生产的自动化效果。”赵子健介绍说,数据标注业务分不同的标准和不同的难度。比如做人脸识别的场景,数据标注的任务要求并不高,对人力要求也不高。一些特殊领域,比如自动驾驶领域,还有一些小语种领域,或者专业知识性较强比如法律、金融这样的场景任务对从业人员的知识储备、综合能力要求就特别高。薪水也会根据任务的复杂程度而有所区分。
赵子健所在的整数智能核心定位是产品型公司,做了一套自动化的数据标注工具,把很多人力的工作用自动化的算法替代,以提升整体标注速度和效率。“转包最大的问题就在于无法保证数据生产的质量和速度,数据如果没法保障,就会影响研发的进程,进一步影响商业化的进程,这是一个非常大的行业痛点。”他说,“我们要做的事就是尽可能促进行业规范化。”该公司推出的自动化标准工具可提效、替代70%的人力。此外,该公司自有供应链稳定持续产出,以此拓展科研机构和企业客户。
“劳动密集”迈向“技术密集”
根据《数据时代2025》测算,到2025年我国拥有的数据量在全球的占比将从2018年的23.4%提升到27.8%,位居全球首位。2015年以来,随着国家的大力推动,我国大数据产业加速发展。一大批大数据产业园相继落地,大数据产业生态加速完善,相关标准和技术体系持续完善,应用市场日益壮大,产业国际影响力不断提升。根据工业和信息化部发布《“十四五”大数据产业发展规划》产业规模测算,到2025年底,大数据产业规模将突破3万亿元。在此背景下,数据标注需求随数据量增长而上升。长期来看,我国大数据支出整体呈稳步增长态势,市场总量有望在2024年超过200亿美元。
在大多数人看来,人工智能是高大上的奢侈品,离实际生活太远,而ChatGDP最大特点就在于,它让每个人都真实地体验到了高质量的人工智能,这意味着它会调动社会的高关注度、积极性与热情,也会使人工智能变成生活中的基础设施,意味着会有更多人投入到这一领域,更多的资本追加、更多的市场关注度,以及更多的产品推出……这种情况下,AI与各行各业深度结合,数据标注的业务量会进一步提升。
不少业内人士表示,ChatGPT的火爆,对于数据标注行业是利好的。ChatGPT国产化,数据标注在整个市场里占据很大份额,因为它非常依赖于训练结果,机器可以训练底层的数据,但是要想和人进行更人性化的沟通,以及要符合国家的一些规定,单靠机器很难做到,需要大量的人的主观判断,人工智能大发展也会为数据标注行业带来更好的发展。
互联网内容安全从业者表示,数据标注10年内不太可能被替代。“很多内容,机器再怎么训练它的算法,也很难完全替代人,因为很多东西非常主观、隐晦,机器很难通过算法识别出来,需要人力去做相应的识别。”
赵子健则表示:“现在数据标注行业已经到了变革的时刻,传统意义上,大家觉得数据标注是人力密集型的行业,但未来发展一定是技术密集型,以技术的自动化替代人力这条路其实在美国走得更快。美国相对来说人力成本较高,所以更早地使用机器替代人力,美国已有大型自动化的数据标注公司,国内也一定会诞生一批这样的公司,真正实现提效,这是对于未来的行业预判。”他很肯定未来大方向上人工智能一定会与各产业深度结合,而每个行业,比如智慧医疗、智能制造、自动驾驶……这些场景都是海量的数据量级,数据已经成为一个新的生产要素。工业的发展需要水电煤,新的经济产业基础设施则需要有数据支持,所以,未来它会是整体经济发展的基础设施。
作者:孙媛媛
编辑:刘彦华
审核:龚紫陌
来源:科学强国微信公众号