中国信通院燕江依等:新一代数据标注产业对“人工智能+”范式创新的作用机理与实践路
- 2026-04-23 18:17:00
- aiadmin 原创
- 7
数据标注行动人工智能数据供职资产中的苛重症结,其中央职分是对数据实行精准的分类、象征和描写,以确保数据资产正在全人命周期管控中切实凿性和可用性,涵盖数据的搜集、存储、理解、流利、操纵等各个阶段。数据标注是毗邻数据资源、算法模子与实践操纵场景的合头桥梁,是开采数据因素价钱的合头症结,是人工智能高质地数据集的中央临盆力,正在当今音信化、数字化、智能化的期间,数据标注供职资产仍然成为促使“人工智能+”举措的苛重症结。
环球数据标注资产发源于1984年,旨正在告终纸质内容电子化,1996年,澳大利亚澳鹏公司(Appen Ltd.)降生并结构数据供职界限营业。2007年,李飞飞等[1]的ImageNet项目正式拉开数据标注行业序幕,该项目通过亚马逊公司的劳务众包平台Amazon Mechanical Turk(AMT)来达成图片的标注和收拾,取得的数据集供机械算法操练和练习。今后,环球开首闪现出稠密的数据标注企业,数据标注行业也进入滋长期。2022年此后,天生式人工智能技能强势振兴,对高质地、大范畴标注数据的需求呈指数级延长,数据标注资产由此步入产生式延长阶段。
从狭义角度来讲,数据标注资产是指对未经收拾的原始数据增加证明、外明、分类或编码的进程,以便数据可能被人工智能算法所判辨和行使。这一进程合键是通过人工或半主动的形式,针对特定的数据集实行标注,以造成具有特定样子的构造化数据。通过高质地的数据标注,人工智能编制也许练习到更为富厚和真正的特点音信,进而提拔其正在百般操纵场景中的体现力和泛化才略。狭义的数据标注旨正在为人工智能供应程序化“教材”,助力机械告终更为精准和高效的收拾与决议。
从广义角度来讲,数据标注资产是指以数据标注为中央的人工智能数据供职上中下逛资产链,涵盖数据供职的全人命周期,的确包罗数据搜集、数据洗涤、数据存储、数据标注、数据质测等众个症结。这些症结的协同生长促使了数据因素资产的络续矫健生长,并为人工智能资产的疾捷生长供应了坚实的根源[2]。广义的数据标注资产超越了简单的数据收拾症结,包罗从原始数据到加工造成高质地数据集的数据根源供职全流程,它涉及到数字经济生长的生长政策和数据资源的举座计议。这一资产不但承载着促使数据资源集聚、提拔数据质地和盘活数据因素价钱的职责,更是数字经济体例中不成或缺的一环。通过加紧顶层策画和结构,优化数据标注资产的生长情况,可能进一步开释其潜力,助力数字经济告终更疾捷、更可络续的生长。
总体而言,狭义的数据标注资产合键合切数据的标注进程和结果,不涉及数据搜求、洗涤等其他症结,它夸大的是怎样将人类常识转化为机械可判辨的样子。广义的数据标注资产则不但合切数据的标注自身,还涵盖了与之合连的一切人工智能数据供职资产链和生态编制,通过整合与优化各症结资源,促使人工智能技能的络续发展与遍及操纵。
人工智能数据标注资产链是由资源供应方、数据标注中央折务方、配套维持方三局限构成,此中资源供应方供应原始数据,同时又是数据标注营业的场景赋能对象。数据标注中央折务方供应数据标注技能供职、平台供职、生意供职和人力供职,有用抬高数据价钱,助力数据资产价钱开释。配套维持方从程序操纵、人才造就、生态培养和安乐保护4个方面赋能数据标注中央资产。的确资产链构成如外1所示。
从行业提供环境来看,环球数据标注行业企业合键散布正在北美、欧洲、亚太等区域,但具有必定范畴的企业数目相对较少[3]。北美区域合键聚合正在美邦,数据标注企业较众,出色的特质是技能驱动导向,数据标注供职提供才略和质地较高,代外性企业有Scale AI、Mighty AI、Mturk等公司;欧洲区域代外性企业有Mindy Support等,但近些年欧洲区域的数据标注企业逐步将营业改观到人力本钱更低的亚太区域和非洲区域等。亚太区域的数据标注提供才略较为强劲,以中邦、澳大利亚和印度为主,代外性的企业有海天瑞声(Speechocean)、澳鹏、Infolks、iMerit等。中邦区域的数据标注行业繁荣生长,闪现出一批如海天瑞声、砺英数智、百度众包、云测数据、标贝科技、数据堂等人工智能根源数据供职企业。我邦人工智能数据标注中央企业数目络续延长,资产链体例逐步美满,吐露出井喷的趋向。估计正在来日,跟着人工智能资产的络续生长,数据标注合连企业数目将连接延长。
近年来,大模子的操练数据范畴吐露出明显延长趋向。据笔者统计,以OpenAI公司的GPT系列为例,2018年揭晓的GPT-1模子,其操练数据量仅为4.6 GB,而2023年的GPT-4模子的操练数据量已到达约40 000 GB,合计包蕴13万亿个token,这一数据范畴的延长切近万倍,凸显了大模子对海量数据的依赖水准;谷歌公司的PaLM2模子正在2023年行使了3.6万亿个token实行操练,而其Gemini模子的数据量也到达了3.3万亿个token;2024年,Meta公司推出的Llama 3模子操练数据量提拔至高出15万亿个token。这些数据评释,大模子的操练数据范畴正以惊人的速率延长。另外,大模子的高质地数据集源泉也极为富厚,涵盖了文本、图片、音频、视频和众模态等众种样子,这些数据集包蕴海量的常识音信,涉及百般专业界限和众种措辞。比如,ChatGPT、Claude、Llama以及DeepSeek等大模子的操练数据,涵盖了互联网网页、文学作品、百科全书、论文专利、社交媒体以及学术文献等百般常识音信,这种众样化的数据源泉,使得大措辞模子具备了重大的通用才略和迁徙才略,也许应对更遍及的职分和场景[4]。
数据标注行业行动人工智能界限的苛重构成局限,其市集范畴正正在络续延长。市集商讨机构大观查究(Grand View Research)的讲述显示,2022年环球数据标注市集范畴为22.2亿美元,估计2023—2030年将以28.9%的年复合延长率延长[5]。近年来,中邦数据标注行业生长连忙,范畴告终了明显延长。华经资产查究院的讲述显示,2023年数据标注行业范畴仍然到达了60.8亿元,同比延长约19.69%;2024年,数据标注市集范畴进一步增添到120亿元以上,估计2025年或者到达200~300亿元[6]。这些数据评释数据标注行业正处于疾捷生长的阶段,并希望正在来日连接坚持延长势头。
外洋数据标注资产生长计谋吐露众维度、市集化的特质。美邦恪守“政府指导、企业插足、市集运作”的生长形式,通过《美邦数据隐私和守卫法案》等计谋法例,络续美满数据因素市集执法体例,推动市集根源办法树立,加入洪量资金用于数据搜集、存储等症结的办法修建。同时,设立众个数据科学和技能核心,激动人才立异创业,并设立囚禁机构,竖立危险评估机制,保护资产类型生长。欧盟恪守“数据一体化市集”政策,通过《通用数据守卫条例》《数据法案》等执法法例,修建“欧洲配合数据空间”,整合众界限数据,促使数据自正在流利。德邦正在2024年将数字和智能技能合连操纵纳入计谋中心,通过“创设-X”安排,修建数据空间,激勉数据因素价钱,促使创设业供应链数字化转型,提拔资产逐鹿力[7]。
为收拢人工智能生长的宏大机会,修建我邦人工智能生长的数据先发上风,近年来我邦邦度计谋利好频出,针对激活数据因素潜能、加快开释人工智能技能盈利做出新安顿,计谋中众次提及数据标注、确权、流利、共享、换取、审核、验证,为人工智能数据标注供职流程带来新的类型哀求。2024年5月,邦度数据局提出展开数据标注基地试点,探寻树立邦度级数据标注基地,中心盘绕技能立异、行业赋能、生态培养、程序操纵、人才就业和数据安乐6个方面推动邦度级数据标注基地树立,促使数据因素价钱开释和人工智能高质地生长,并于第七届数字中邦树立峰会主论坛上揭晓了承受首批邦度级数据标注基地树立职分的都会名单,诀别是:四川省成城市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市。2024年12月,邦度生长和变革委员会、邦度数据局、人力资源和社会保护部、财务部4个部分纠合揭晓《合于鼓舞数据标注资产高质地生长的施行成睹》,旨正在促使数据标注资产的高质地生长,为人工智能供应坚实根源,类型行业,鼓舞就业和经济延长,提拔邦际逐鹿力,并促使区域经济平均。
另外,我邦各级地方政府也踊跃出台合连资产计议文献和扶植计谋,以人工智能根源数据供职为切入点,寻求人工智能数据标注资产生长的插足机缘。2024年12月,山西省大同市印发《大同市数据资产生长三年举措安排(2024—2026年)》,接济区域数据标注资产生长。2025年3月,沈阳市数据局揭晓《沈阳市数据标注技能立异向导成睹》,旨正在进一步促使数据标注技能冲破立异,培养强大数据标注资产,深化数据标注技能对提拔数据提供质地的维持效率,助力沈阳正在数字经济赛道上抢占先机。
跟着机械练习、深度练习以及大模子算法的络续发展,主动化标注、智能审核及合成数据等新兴技能正渐渐走向成熟并遍及操纵于实践场景。这些技能通过主动对数据实行分类和标注,明显提拔了标注结果与确凿性,同时大幅淘汰了人工职责量。另外,数据标注东西也正在络续进化,从简单的人工标注形式向人工标注与人工智能辅助标注相连系的半主动化形式调动,人工智能模子对数据实行预收拾后,标注职员正在此根源前进行校正,进一步提拔了标注结果与质地。
正在数据标注资产繁荣生长的同时,数据安乐与隐私守卫题目愈发凸显,成为资产生长中谢绝漠视的合头要素。数据标注进程中涉及洪量的敏锐音信,如局部隐私数据、贸易秘要等,一朝揭露将给企业和用户带来急急的吃亏。如今,越来越众的企业开首采用数据脱敏、加密传输、访候限制等技能技术来加紧数据安乐管制,并通过竖立美满的数据人命周期管制体例,确保数据搜集、存储、收拾与歼灭各症结相符合连执法法例哀求。同时,跟着《中华公民共和邦局部音信守卫法》《中华公民共和邦数据安乐法》等计谋法例的出台,囚禁力度络续加大,行业程序渐渐美满,进一步促使企业正在数据管束方面加大加入。来日,修建可托、透后、可追溯的数据标注情况将成为行业生长的合头对象。
跟着人工智能数据标注资产向专业化、智能化对象生长,对高本质专业型人才的需求日益增大。一方面,资产的技能立异须要具备深奥技能功底的人才,他们也许熟练左右机械练习、深度练习等合连技能,拓荒和优化数据标注东西与算法。另一方面,各行业对专业化数据标注的需求,哀求标注职员不但具备数据标注本领,还需左右相应行业的专业常识,如医疗、金融、交通等界限的专业术语和营业流程等,以便更好地判辨标注对象并提拔标注质地。另外,跟着人工智能辅助标注技能的生长,标注职员还需具备必定的编程才略与平台操作体会,以符合新型职责流程。
DeepSeek-R1模子正在后操练阶段行使了深化练习技能,正在仅有极少数据的环境下,将数据标凝望为提拔模子功能的中央要素之一,深化到数据标注的每一个症结,确保每一条数据的精准和高效,极大提拔了模子推理才略。其对数据拓荒运用的独个性的确外示正在三方面。一是主动天生高质地数据集,淘汰守旧数据标注需求。DeepSeek模子操练采用主动化推理和数据天生技能,大幅提拔主动化数据标注技能形式占比,守旧数据标注需求淘汰。二是“数据蒸馏+人类协同”技能提拔数据标注质地和结果。DeepSeek通过数据蒸馏技能,从低质地数据中高效提炼天生高质地操练数据,同时采用主动化筛选和人类专家标注反应机制保护数据标注质地,大幅提拔数据标注质地和结果。三是提出深化练习新范式,聚焦高质地推理型数据集。DeepSeek聚焦高质地推理数据,搜求了大约60万条推理合连操练样本和20万条非推理操练样本,推理型数据与非推理型数据配比约3∶1[10],推理操练监视微调数据占比大幅淘汰。
如今数据标注资产进程管制和质地限制短缺同一程序,头部数据标注企业合键供应定制化数据标注供职,数据标注结果存正在各成体例的情景,企业间数据标注类型难以自愿告终同一,数据流利存正在门槛。跟着人工智能拓荒核心络续向专业操纵拓展,定制化供职吞噬市集需求主体。据笔者统计,2023年我邦数据标注市集中定制化供职的占比已达86%,程序化的数据集产物仅占13%。另外,分别行业对数据标注需乞降程序存正在差别,这些差别影响了一切数据标注资产的程序化经过。譬喻医疗行业对数据标注的精度哀求极高,任何标注过错都或者导致急急后果;正在社交媒体理解中,标注的灵巧性和符合性则尤其苛重,这些行业特定的需求增众了程序化职责的难度,也评释正在拟订同一的程序体例中须要充盈琢磨行业的差别性和异常性。
起初,数据标注技能的研发和市集引申之间存正在必定摆脱,技能效果未能实时转化为实践操纵,导致技能价钱未能充盈裂释。其次,标注技能自身仍存正在少少技能瓶颈和算法部分性,比如正在某些特定界限或繁复场景下,标注技能受加入景数据质地、标注东西等要素的范围,确凿性和结果仍有待提拔[11]。另外,正在市集逐鹿激烈的情况下,分别标注企业往往以守卫自己优点为起点,难以造成协力实行技能协同攻合,而且标注技能繁复性、程序分别一等题目也急急遏制了企业间的标注技能协同立异,这些要素配合限制了标注技能的遍及操纵和协同生长。
跟着大模子的生长,高质地数据集的评判程序变得尤其繁复,哀求标注者务必具备更深主意的判辨和理解才略,以及更高的逻辑头脑和专业常识体例哀求。同时,正在收拾繁复、众模态数据时,专业本领和学术素养变得尤为苛重,导致局限项目高秤谌数据标注人才欠缺。另外,行业场景的众样化促使数据需求量长远络续延长,对数据标注职员的需求进一步增添。猎聘大数据查究院查究数据显示,2024年数据标注岗亭数目延长速率较2023年大幅抬高,但高质地数据集的高哀求与低产能成为数据标注企业生长的痛点。
如今数据标注平台面对众重技能离间与生态适配逆境,限制行业高质地生长。起初,平台根源办法树立才略软弱,受限于行业生长周期短及资源抑制,大批企业正在数据搜集、收拾、标注及流利症结存正在明显技能短板,自筑智能化收拾平台才略不够,核默算法研发与高质地数据集平台化收拾秤谌亟待提拔,更加正在应对大范畴数据时众数存正在功能“瓶颈”与智能化辅助功用缺失题目。其次,平台功用体例与牢靠性存正在缺陷,现有编制正在高并发场景下易展示反响延迟或供职终止,急急影响标注结果与贯串性。另外,信创生态适配才略不够题目出色,平台对硬件架构、操作编制及数据库的兼容性研发加入不够,未能有用整合技能生态资源以优化编制功能,限制了技能迭代与安靖性提拔[12]。
激动各区域与行业头部企业联手共筑数据标注技能立异纠合实行室,络续加大正在数据标注东西与机械练习等智能算法调解方面的查究力度,尽力于提拔标注东西正在结果、质地、精度和安靖性等众方面的功能目标。同时,踊跃展开产学研合营,与高校、科研机构联袂配合展开前沿技能查究,加快科技效果向实践操纵的转化,络续促使数据标注技能的立异与生长,为资产升级注入源源络续的动力。
高质地行业数据集为守旧资产的数字化、智能化转型供应了坚实维持,有力促使了行业举座生长秤谌的提拔。为了告终这一方向,应深化开采“人工智能+各个行业”的数据标注需求,接济民众数据正在“人工智能+众界限”的标注与拓荒运用,并踊跃促使数据标注供职纳入政府采购周围。同时,激动企业加大对数据的拓荒利使劲度,激勉企业开释更众的数据标注需求,配合树立高质地的行业数据集,为人工智能技能正在众界限的操纵赋能。另外,数据标注企业应与各行业展开深度合营,促使标注数据正在新型工业化、聪慧教养、智能诊断、金融危险评估等的确场景中的操纵,助力企业优化营业流程、加强市集逐鹿力,加快告终“人工智能+”智能化转型[13]。
加快修建数据标注生态,通过施行“龙头引颈+中小微孵化”双轮驱动计谋,加快修建美满的资产链、价钱链和生态编制。一方面,聚合资源培养和引进数据标注龙头企业,施展其正在技能、资金和市集方面的上风,引颈资产对象,拟订行业程序,促使数据标注技能的立异与操纵。另一方面,通过税收优惠、资金扶植和创业空间等为中小微企业供应优异的孵化情况,激勉中小企业的立异生气,造成资产链上下逛的协同生长。另外,接济龙头企业与中小企业竖立严密的合营合连,鼓舞资源共享与上风互补,配合展开项目研发和营业合营,告终互利共赢。
踊跃促使数据标注程序编制和操纵,激动数据标注头部企业踊跃插足数据程序资产程序的拟订,修建涵盖技能、质地、流程等众维度的程序框架体例,加疾拟订邦度程序与行业程序,为数据标注供应真切类型。同时,促使程序正在实践标注进程中的遍及操纵,通过施行络续检查和美满程序体例,鼓舞数据标注资产的类型化与高质地生长[14]。另外,竖立健康程序施行与监视机制,深化对数据标注企业和项主意监视搜检,确保程序有用实施。
加紧数据标注人才培养力度。通过设立实训基地、举办职业本领大赛等众种样子,促使产教调解生长,培养高端标注人才行列,造成对就业的动员效应。另外,接济高校和职业院校开设数据标注合连专业和课程,连系资产需求更新教学内容,造就符合数据标注资产生长的专业人才。激动行业同盟、高校、科研院所与企业竖立长远合营机制,配合展开科研项目和人才造就,告终资源共享、上风互补,促使数据标注技能的立异和操纵。
络续加紧数据安乐防护力度,搭筑数据标注安乐溯源机制,促使数据标注安乐临盆情况树立,展开数据合规认证,竖立美满的数据安乐管制体例,加紧数据正在搜集、传输、存储、收拾等全人命周期的安乐防护,采用加密、权限管制等技能技术,防卫数据揭露、窜改和滥用[15]。另外,加紧员工的数据安乐培训,抬高安乐认识,按期展开安乐审计和危险评估,实时出现和整改安乐隐患,确保数据标注进程的安乐牢靠。
依托我邦数据根源办法上风,激动邦内企业承接数据标注邦际营业,深化数据标注界限技能及资产合营,促使我邦数据标注企业渐渐走向邦际市集,拓展海外营业,为邦际提供一批相符我邦社会主义中央价钱观的高质地数据集。同时,展开数据标注科技人才邦际调换,造就一批具有邦际视野的数据标注人才,加快人才链与资产链的有用邦际对接,明显加强我邦正在环球数据标注资产中的话语权和影响力。另外,接济企奇迹单元牵头拟订数据标注邦际程序,主导造成邦际同一的数据标注程序和共享机制,鼓舞数据标注资产高质地、邦际化生长。
如今,我邦数据标注资产已迈入以范畴操纵反哺技能跃升、以高质地数据驱动“人工智能+”场景落地的新阶段。数据标注行动毗邻数据资源、算法模子与“人工智能+”实践操纵场景的合头桥梁,已成为各邦科技逐鹿的合头因素。加疾研发众模态、跨界限、人机协同的智能化标注技能和东西,培养高秤谌、专业化的数据标注人才,修建可托、可控、可流利的高质地数据集提供体例,打制领会“数据资源—标注供职—算法操练—场景操纵”的完好资产生态,有利于加快人工智能赋能千行百业,鼓舞我邦人工智能与数据因素资产高质地繁荣生长。
中邦音信通讯查究院人工智能查究所工程师,合键从事人工智能数据质地与模子功能闭环反应机制与手法、人工智能数据集质地评估体例和东西平台研发、人工智能高质地数据集树立途径以及人工智能高质地数据集程序体例策画等方面的查究职责。
通讯作家。中邦音信通讯查究院人工智能查究所高级工程师,合键从事人工智能计谋、程序、资产查究,涵盖机械练习、语音感知认知技能以及产物调解操纵等方面的查究职责。
中邦音信通讯查究院人工智能查究所高级工程师,合键从事人工智能高质地数据集树立及数据标注等方面的查究职责。
中邦音信通讯查究院人工智能查究所高级工程师,人工智能合头技能和操纵评测工业和音信化部中心实行室副主任,合键担当牵头可托AI人工智能评测程序体例和才略树立,以及工程化才略等合连评估类型的研制与评测职责。
燕江依, 李荪, 樊威, 等. 新一代数据标注资产对“人工智能+”范式立异的效率机理与施行途径查究[J]. 音信通讯技能与计谋, 2025, 51(8): 26-34.
《音信通讯技能与计谋》是工业和音信化部主管、中邦音信通讯查究院主办的专业学术期刊。本刊定位于“音信通讯技能前沿的风向标,音信社司帐谋探究的思念库”,聚焦音信通讯界限技能趋向、民众计谋、 邦度/资产/企业政策,揭晓前沿查究效果、中心题目理解、热门计谋解读等,促使5G、工业互联网、数字经济、人工智能、大数据、云估计等技能资产的立异与生长,指导邦度技能政策选取与资产计谋拟订,搭筑产、学、研、用的高端学术调换平台。
为进一步抬高期刊音信化树立秤谌,为遍及学者供应更优质的供职,我刊官方网站()已正式加入运转,接待投稿!
| 联系人: | 王先生 |
|---|---|
| 电话: | 15640228768 |
| 微信: | 1735252255 |
| 地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255