针对目前电力系统中大语言模型技术应用相关的业务场景,主要解决如何有 效地采集和清洗与电力系统相关的数据,包括数据来源的选择和数据质量的评估; 定义必要的数据标签和注释,以确保模型了解电力系统领域的相关概念和关系; 规定数据的格式和结构,以适应大语言模型的微调需求,包括数据的输入和输出 格式;确定数据的安全存储方式,并定义数据共享政策,以确保数据的合规和安 全性。本文件适用于电力系统的大语言模型的数据准备,包括数据的采集、清理、标注、注释 和整理等所有环节。此标准的目的在于规范在大语言模型训练中的数据处理过程,以保证数 据的可用性、一致性和可追溯性。本文件规定了人工智能大语言模型在电力系统中的微调数 据准备规范,本文件共分为数据准备要求、数据准备规范、数据准备流程等。 本文件适用于各单位使用大语言模型技术解决相关业务需求,适用于电力系统人工智能 大语言模型的应用开发等业务场景,帮助业务人员以及开发人员完成模型训练、模型微调等 相关工作。
本文件规定了人工智能大语言模型在电力系统中的微调数据准备规范,本文件共分为数 据准备要求、数据准备规范、数据处理流程等。其中数据准备主要用于规范电力系统的大模 型在微调训练中的数据收集、数据格式以及数据隐私与安全等,数据准备规范主要用于规范 电力系统大模型微调训练中的数据预处理、数据转换、数据标签与注释、数据及划分、数据 格式化、数据集质量评估、数据增强以及数据更新与维护等,数据处理流程主要用于规范数 据预处理的一般步骤和中文数据预处理的步骤等。具体内容组织框架见图1: