《生成式人工智能服务安全基本要求》（征求意见稿）

2023年10月11日，全国信息安全标准化技术委员会发布《生成式人工智能服务安全基本要求（征求意见稿）》（以下简称“征求意见稿”），面向公众征求意见，这是国内首个专门面向生成式AI服务安全规范性文件意见稿，也是对同年7月份网信办等七部门发出的《生成式人工智能服务管理暂行办法》（解读详见：《AIGC新规：促进发展、鼓励创新、审慎监管、留有余地》）的支撑。本文中，我们将对征求意见稿的主要内容予以解读，帮助读者理解其内容。

1、适用主体

根据《安全评估征求意见稿》，在大模型的安全评估过程中，TC260首先界定了“生成式人工智能服务”与其服务“提供者”，其并未如《互联网信息服务深度合成管理规定》一样规定“技术支持者”，而是与《生成式人工智能服务管理暂行办法》保持一致，仅就直接向境内公众提供生成式人工智能服务的组织或个人规定为“提供者”，进而适用该安全评估。

2、评估内容

目前《安全评估征求意见稿》规定，需要从语料安全（训练数据安全）、模型安全、安全措施、安全评估进行生成式人工智能的安全评估：

语料安全

（1）语料来源的基本评估要点

根据《安全评估征求意见稿》，训练数据（语料）被根据来源区分了不同的合规要求：

**通过开源协议获得：**应当遵守开源协议或者相应授权文件；
**通过自采方式获得：**不得违反robots协议等；
**通过商业授权获得：**如交易方不能提供语料合法性证明材料时，不应使用；

**通过用户明确授权获得：**将用户输入信息作为语料进行训练。

同时从整体而言，训练数据被要求建立语料应当搭配不同来源的语料训练（包括不同语言，境内外数据等）；同时应当建立语料来源黑名单，不使用黑名单来源的数据进行训练；根据我国网络安全相关法律要求阻断的信息，不应作为训练语料。

（2）语料内容的基本评估要点

内容合规作为生成式人工智能的重要合规要求，在《安全评估征求意见稿》中进行了如下要求：

对训练语料通过关键词、分类模型、人工抽检等方式过滤语料中的违法不良信息。

针对内容审核，目前除了安全评估以外，其同样是算法备案过程中的监管重要审核要求，因此无论是通过企业自行搭建的内容机制，还是借助第三方的内容审核能力，均应当对训练数据采取充分的内容过滤，满足《生成式人工智能服务管理暂行办法》的要求。

对训练数据的知识产权合规评估。

目前《安全评估征求意见稿》中明确要求提供者对训练数据中的知识产权进行合规评估，包括设置知识产权负责人、建立知识产权管理策略等。但现实中，对训练数据的知识产权侵权判断是十分困难的，同时目前包括中国在内的多个国家都在考虑为了促进人工智能的发展，促进《著作权法》的修改，增加将受到《著作权法》保护的内容用于人工智能训练时，可以适用合理使用，无需获得授权；而在商标权与专利权相关的内容中，将其作为人工智能的训练数据进行训练时，是否存在侵犯商标权或者侵犯专利权的行为，都是需要进一步明确讨论的。因此在训练数据的知识产权合规评估过程中，《安全评估征求意见稿》中尚需要进一步的明确。

对训练数据的个人信息合规评估。

《安全评估征求意见稿》依据《生成式人工智能服务管理暂行办法》第4条的规定，要求使用个人信息用于数据训练时应当满足《个人信息保护法》规定的相应合规要求，包括获得个人信息主体的授权同意或者单独同意等。但目前的大模型训练中，特别是通用大模型，需要使用个人信息的场景并不多见。实践中还需要注意用户输入的个人信息是否会用于大模型的训练，往往会在隐私政策中进行明确约定。如存在，则需要满足《个人信息保护法》以及相关国标的要求。因此，匿名化后的个人信息如开展数据训练时，如何进行匿名化处理在现实中将尤为重要。

（3）语料标注的基本评估要点

《安全评估征求意见稿》中根据《生成式人工智能服务管理暂行办法》第8条的要求，对语料标准从人员、规则、质量的角度进行要求。

模型安全

《安全评估征求意见稿》对模型本身的安全也同样提出了要求：

（1）基础模型****用于研发的基础模型应当为经过主管部门备案的基础模型。

但该备案具体是指何种备案需要明确，以及针对基础模型的定义同样需要明确。

（2）模型生成内容安全

针对模型直接输出的，未经其他处理的原生内容，目前《安全评估征求意见稿》依据《生成式人工智能服务管理暂行办法》第4条，要求提供者应当将生成内容安全性作为主要考虑指标，同时应对用户输入信息进行安全检测，引导模型生成积极内容；并且应当定期优化模型。

（3）服务透明度算法透明一直是各国监管的难点，《安全评估征求意见稿》中虽然规定了提供者应当在服务的相应位置向用户披露包括服务适用的人群等，以及第三方基础模型使用情况，以及具体服务的局限性等。但基础模型、服务局限性等应当披露到何种程度，例如是披露使用了LLAMA2的基础模型就可以满足要求，还是要针对LLAMA2进行具体说明，是需要进一步明确的。同时向公众披露基础模型、服务的局限性是否可以起到保护用户权益（知情权等）的要求也是需要梳理的。如果是需要公众具有一定的知识后才可以理解的信息，是否信息披露应当以其他方式替代。

（4）生成内容准确性、可靠性

从避免生成内容被用于诈骗等违法犯罪行为，生成式人工智能生成物应当准确、可靠。但同时需要考虑的是目前的技术，如果为了实现这一目标将花费多大成本，其是否是可以实现。是否生成内容的准确性、可靠性可以通过例如生成内容可追溯、显著提示等方式进行，在现在的技术发展阶段的弥补，是可以被考虑的。

安全措施

《安全评估征求意见稿》对生成式人工智能服务的提供者的安全措施提出了如下要求：

（1）未成年人保护《生成式人工智能服务管理暂行办法》第10条明确规定了生成式人工智能服务对未成年人的保护，而《安全评估征求意见稿》也针对如果向未成年人提供服务时应当采取的安全措施进行了进一步的规定。 2023年10月24日，国务院公布了《未成年人网络保护条例》，该条例生效后需要进一步为生成式人工智能服务依据该条例进行合规评估。

（2）收集使用者输入信息用于训练

《安全评估征求意见稿》进一步要求，除需要满足获得用户同意的要求外，还需要提供关闭使用者输入信息用于训练的选项等。

（3）图片、视频等内容标识

TC260在2023年8月发布了《网络安全标准实践指南—生成式人工智能服务内容标识方法》，该标准已经非常清晰的规定了文本、图片、音视频等生成物如何完成显著标识、隐式标识等设置方法，因此可以遵守该标准处理。

（4）接受公众或使用者投诉举报

（5）向使用者提供生成内容《安全评估征求意见稿》针对向用户生成的内容，应当仅可以针对明显的违反不良信息可以拒绝回答，而其他问题应均能正常回答，并且设置监看人员。针对这一要求，如果除了明显的违反不良信息以外不得拒绝回答，将存在某一特定的生成式人工智能服务提供者，如果不具备审核具体内容的能力或者资质，例如新闻信息、医疗信息等，将进入很难回避的困境。

（6）模型更新、升级方面

《安全评估征求意见稿》规定了模型重要更新、升级后应当再次完成安全评估，并且向主管部门重新备案，但对于模型重要更新、升级同样需要确定具体标准，否则提供者无法明确何时需要进行重新备案。

安全评估要求

《安全评估征求意见稿》明确了前述各项规定的评估标准，这些具体评估要求的明确将非常有利于生成式人工智能服务提供者对合规要求的理解和落地执行。