(相关资料图)

在Gartner2022年发布的人工智能技术成熟度曲线中,“以数据为中心的人工智能”(Data-centric AI)被列为人工智能技术和应用的四大创新类别之一。机器学习学者吴恩达也在2022年与IEEE Spectrum的采访中表示,人工智能将向“数据为中心”进行转变。

众所周知,数据是人工智能的重要生产要素,对于AI模型开发和应用非常关键,被喻为AI的原料。

说起以数据为中心(Data-centric),不得不提起以模型为中心(Model-centric)的人工智能。从以模型为中心的角度来看,工程师更加偏向从模型出发,通过特征工程来使数据适合其模型,而当现有模型无法充分解决问题时,将开发可以解决问题的新模型。人工智能领域此前专注于通过调整算法模型来实现更准确的结果,但采用公开数据和低质量数据集进行训练的模型普适性较差,而重新训练的成本代价更高,最终导致算力资源和时间的浪费。

从以数据为中心的角度来看,数据决定了模型的效果,通过对训练数据集的改进可以提升模型的准确性和鲁棒性。斯坦福大学李飞飞等人在2022年8月发表的论文中指出,实现可信AI,数据的设计、改进和质量评估是关键。以数据为中心的人工智能将重点转移到治理和增强用于模型训练的数据上,高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。通过数据治理、数据自动化、建立数据供给全流程等方式,利用数据采集标注平台、数据管理平台、数据质量评估等工具和数据增强、数据挖掘、数据分析等技术手段,改进、完善、评估数据,形成优质的标准化数据产品和完备的数据全生命周期管理体系,提升数据质量,最大化释放数据的价值。

目前,国内外众多研究机构、企业为实践以数据为中心的人工智能,正在推动相关应用技术服务和产品的研发落地。国际权威学者吴恩达在2021年举办了首届“以数据为中心的人工智能竞赛”,比赛仅允许通过改进数据来提升模型的性能,将数据的重要性提升到一个新的高度。在国内,上海人工智能实验室建设OpenDataLab浦数人工智能开放数据平台,汇聚海量的数据资源,包括覆盖800多种任务类型的3000多个数据集,并提供便捷检索和快速下载服务;商汤建立了AI数据的采标平台和数据集管理平台,并作为商汤AI大装置中的一环,全面赋能工程化数据应用和AI模型的研发部署;格物钛构建了新一代非结构化数据平台,通过数据管理、数据可视化、数据协同等功能,打破数据质量不一致、数据分散等问题,提升AI模型的训练效果。

可见,推动将“以数据为中心的人工智能”,连接起数据团队和模型团队,建立起一套标准化的数据质量控制、组织管理与工具系统的标准体系,对于企业更好的利用AI模型的能力促进业务增长显得至关重要。目前,中国信息通信研究院依托人工智能关键技术和应用评测工业和信息化部重点实验室,聚焦人工智能工程化应用和发展,基于人工智能开发平台、MLOps等研究成果,构建面向AI工程化的《人工智能工程化数据应用成熟度模型》标准体系。标准体系从AI数据集质量控制出发开展数据应用策略研究,实现数据质量的提升,对人工智能产品落地和产业发展具有一定的前瞻性和长远意义。

推荐内容