5月24日,由阿里研究院牵头,阿里巴巴集团、数字中国研究院(福建)、阿里云智能集团联合编写的《大模型训练数据白皮书》在第七届数字中国峰会期间发布。

自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。

大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制。而促进高质量训练数据的建设,需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用;需要构建共享、共创、共赢的合作生态和更开放的环境,不囿于版权等制度所存在的争议;需要给技术的发展预留空间,并相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一,我们希望中国的大模型发展,可以在数据方向上有所突破,助力我国在国际竞争中取得优势地位。

本白皮书首先分析了大模型训练所需的数据类型,并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上,本书进而对训练数据的质量和规模进行讨论,发现高质量数据应在实践中检验效果,而难以用前置的客观标准衡量。同时,本书探讨了合成数据作为解决高质量训练数据供给不足的新方案,及其在大模型训练中的潜力。在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。最后,本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性,并以阿里巴巴的实践为案例做说明和阐述。

以下为白皮书内容目录与精彩节选:

01 训练数据对大模型发展的重要性 算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。

成为VIP会员查看完整内容
96

相关内容

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据要素是指那些以电子形式存在的、通过计算的方式参与到生产经营活动并发挥重要价值的数据资源。在数字经济中,数据要素的角色可与传统的生产要素(如劳动力、资本和土地)相提并论。数据要素是推动数字经济发展的核心引擎,是赋能行业数字化转型和智能化升级的重要支撑,也是国家基础性战略资源。2023年正式成立的国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,不仅体现了对数据资源的战略性管理和规范化利用的需求,也体现了国家层面对数字经济发展和数据治理的重视。
中国大模型落地应用案例集(2023),119页pdf
专知会员服务
293+阅读 · 1月10日
2023智能算力发展白皮书,40页pdf
专知会员服务
83+阅读 · 2023年9月4日
数据库发展研究报告(2023年),53页pdf
专知会员服务
46+阅读 · 2023年7月5日
数据中台实践指南(1.0版),44页pdf
专知会员服务
47+阅读 · 2023年7月1日
2022城市大脑建设标准研究报告,36页pdf
专知会员服务
60+阅读 · 2022年4月7日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
366+阅读 · 2022年2月26日
数据治理标准化白皮书(2021年), 34页pdf
专知会员服务
231+阅读 · 2022年1月18日
隐私计算应用白皮书, 54页pdf
专知会员服务
175+阅读 · 2021年12月18日
专知会员服务
142+阅读 · 2021年6月1日
【AI+军事】数字孪生国防白皮书, 96页pdf
专知
27+阅读 · 2022年4月6日
《人工智能安全测评白皮书》,99页pdf
专知
33+阅读 · 2022年2月26日
白皮书 | 工业智能前沿报告,35页pdf
专知
29+阅读 · 2021年3月9日
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
37+阅读 · 2013年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
中国大模型落地应用案例集(2023),119页pdf
专知会员服务
293+阅读 · 1月10日
2023智能算力发展白皮书,40页pdf
专知会员服务
83+阅读 · 2023年9月4日
数据库发展研究报告(2023年),53页pdf
专知会员服务
46+阅读 · 2023年7月5日
数据中台实践指南(1.0版),44页pdf
专知会员服务
47+阅读 · 2023年7月1日
2022城市大脑建设标准研究报告,36页pdf
专知会员服务
60+阅读 · 2022年4月7日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
366+阅读 · 2022年2月26日
数据治理标准化白皮书(2021年), 34页pdf
专知会员服务
231+阅读 · 2022年1月18日
隐私计算应用白皮书, 54页pdf
专知会员服务
175+阅读 · 2021年12月18日
专知会员服务
142+阅读 · 2021年6月1日
相关基金
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
37+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员