大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模,可以实现从“手工作坊”到“工厂模式”的AI 转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以通过大模型微调,完成多个应用场景的任务;大模型具有多模态信息处理能力,相比传统机器学习方式,能更高效地分析各行业数据,展现出更加强大的应用潜力;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快 AI 产业化进程,降低 AI 应用门槛。当前,互联网厂商、AI 厂商、以及一些初创公司都接连推出了各自的大模型产品。
一方面,大型科技公司密集发布自研大模型,从算力层、平台层、模型层、应用层进行了四位一体的全面布局,涌现出华为云盘古大模型、百度文心一言、阿里云通义千问、科大讯飞星火认知等一批具有行业影响力的预训练大模型。
另一方面,国内各大高校与科研院所也在积极布局大模型,清华大学发布 ChatGLM,复旦大学推出国内首个类ChatGPT 大模型 MOSS。各大模型在服务业、工业、金融业已经开始落地应用。然而,当前大模型应用系统能力指标不明确、性能要求、测试方法不统一等标准化需求突出,为引导行业高质量发展,亟需统一的评测方法。 在上述背景下,本标准聚焦大模型评测体系,从大模型构建过程和应用过程出发综合考虑能力要求,同时还将着重归纳、总结和梳理目前大模型应用比较好的服务业、金融、医疗、制造业、交通、教育等行业的应用过程特点、评估实践和未来趋势,以保障标准内容的适用性、可行性和覆盖性。 制定《人工智能 预训练模型 第 2 部分:评测指标与方法》国家标准有助于不同类型的企业基于规范化、统一的能力和性能指标、测试数据、测试工具、测试环境和测试方法进行大模型评测与应用指导。
本文件规定了预训练模型评测内容、指标设置和评测方法。 本文件适用于模型提供者、应用服务者和应用消费者等对预训练模型能力进行评估与测试,也可以为预训练模型的设计、开发、应用提供参考。