关于AIGC,一面享受其好处,一面则需管控好。

人工智能生成内容(AIGC)是人工智能发展的最新成果之一。相关应用生成的内容,如文本、图像和音频,已经引发了热烈的讨论。各种衍生的AIGC应用也逐渐进入了生活的各个领域,对人们的日常生活带来了难以想象的影响。然而,这种生成工具的快速发展也引发了对AIGC中的隐私和安全问题,甚至是版权问题的关注。我们注意到,像区块链和隐私计算这样的先进技术可以与AIGC工具结合,但是还没有工作去系统化和详细地研究他们的相关性和前景。因此,有必要通过充分探索上述技术,研究它们如何用于保护AIGC中数据的隐私和安全。在这篇论文中,我们首先系统地回顾了AIGC的概念、分类和底层技术。然后,我们从多个角度讨论了AIGC面临的隐私和安全挑战,并有针对性地列出了目前存在的对策。我们希望我们的综述能帮助研究人员和行业建立一个更安全、更稳健的AIGC系统。

1. 引言

人工智能生成内容(AIGC)指的是使用先进的生成式人工智能(GAI)技术进行内容生成,这可以在短时间内自动创建大量内容。这一章简要介绍了AIGC的应用及其历史,并强调在AIGC背景下讨论数据安全和隐私保护的重要性。

人工智能生成内容(AIGC)是一种使用人工智能技术生成图像、文本、音频和其他内容的新方法。AIGC采用深度学习、生成对抗网络(GAN)或变分自编码器(VAE)等技术,从大规模数据集中学习数据的潜在分布,从而生成逼真、高质量的新数据。近年来,AIGC发展迅速,而在2022年引起广泛关注的ChatGPT [158]在人机交互、对话和输出生成文本等应用方面具有强大的性能。原则上,ChatGPT是基于大型语言模型(LLM)[121]的机器学习系统,这是一个拥有数千亿参数的LLM。经过大量文本数据集的训练,ChatGPT能够完成更合理的对话,并能创建具有独特风格的文本。在图像生成方面,如稳定扩散[2]、Midjourney[1]都有良好的表现,它们是扩散模型[45, 89]的应用,给定提示文本,可以生成与提示文本要求一致的新图像。StyleGAN [103]也是一种优秀的生成模型,它基于GAN的结构,用于图像生成、艺术和设计。AIGC模型的基本步骤与预训练大型模型[121]相同。首先,收集数据并完成数据预处理步骤。然后在训练数据集的帮助下完成模型的训练,根据不同的要求对模型进行微调,然后推断模型的效果。最后,进行模型的发布阶段,发布预训练模型。在数据收集的第一步中,最容易出现数据安全和隐私问题,模型开发者可能使用一些未经授权的数据来完成模型的训练,导致数据泄露问题。

AIGC的发展离不开计算能力的提升和深度学习的持续研究。AIGC发展的历史大致可以分为三个阶段:

• 早期萌芽阶段:在此阶段,学者们已经探索了生成模型以及计算机生成的内容。1957年,世界上第一部计算机创作的音乐作品Illiac Suite出现。在1960年代,Joseph Weizenbaum编写了世界上第一个聊天机器人Eliza,它能够回答人们的问题。这些都是智能内容生成的有意义的早期尝试,但由于在1980年代末和1990年代中期的高成本和商业化难度,因此资本投入有限,导致在AIGC方面没有重大成就。

• 沉淀和积累阶段:在20世纪初,深度学习发展迅速,提出了卷积神经网络(CNNs)等深度学习算法来解决图像分类、图像分割等许多问题。同时,GPU、CPU等算术设备日益精密,互联网也处于快速发展阶段,为训练各种人工智能算法提供了大量数据。

• 高速发展阶段:2014年,GAN [75]的出现为生成内容提供了一种高效可行的网络,这再次激起了对AIGC的兴趣。这个阶段是前两个阶段AIGC发展的延续,主要基于预训练大型模型。2018年,NVIDIA发布了用于自动图像生成的StyleGAN [103],2019年,DeepMind发布了用于连续视频生成的DVD-GAN [43]。2021年,Open AI推出了DALL-E [169]和更新迭代版本的DALLE-2 [168],主要用于文本和图像的交互式内容生成。特别是在2022年底,OpenAI发布了基于GPT3的聊天机器人应用ChatGPT,再次引发了广泛的讨论和热烈的关注。

AIGC基于人工智能技术生成内容以满足用户的需求,是对传统内容创作方法如专业生成内容(PGC)和用户生成内容(UGC)[116, 224]的补充。在PGC时代,生产优质内容需要很长的时间。在UGC时代,每个人都可以作为用户在线发布自己的创作,但是创作者的水平各不相同,输出内容的质量难以保证。AIGC可以在数量和质量上克服PGC和UGC的短板,生成大量的内容,同时在学习后能够输出保证质量的内容。

1.2 AIGC中的安全性和隐私性的紧迫性

尽管AIGC模型因其强大的内容生成能力和效率而引起了全世界的关注,但对于其实际的大规模使用仍然存在担忧,即,使用AIGC服务可能会引发安全性或隐私问题。可能来自AIGC的问题包括:用户的输入数据泄漏、模型攻击、数据爬取和生成内容的不安全性。

1.2.1 相关法律和规定。近年来,世界各国都提出了关于AIGC使用及由此产生的数据安全和隐私问题的法律和规定。Chatgpt的普及标志着AIGC模型的蓬勃发展。AIGC模型的快速发展及其强大的生成能力使各国更加关注数据安全和隐私问题。用于训练AIGC模型的数据可能包含敏感信息,如个人身份信息、医疗记录和财务信息。如果这些敏感信息泄漏,将给个人和组织带来巨大的风险。在数据安全方面,欧盟在2018年颁布了通用数据保护条例(GDPR) [3],这是一项新的欧盟关于收集、处理和存储个人数据的规定。2019年,英国航空公司因违反GDPR公开用户信息而被罚款近2亿英镑。GDPR是保护个人对其信息的权利并确保信息在使用过程中不被泄露的重要法律依据。此外,中国陆续颁布了数据安全法、个人信息保护法、网络安全法,以确保个人数据在网络流通过程中的安全性。2022年,中国颁布了《数据20条》,提出构建以数据为基础的制度,以更好地发挥数据要素的作用,并规范正确使用数据要素。对于AIGC,各国已经注意到其强大的生成能力,因此提出了对其使用的限制。2018年,中国信息通信研究院发布了关于AIGC的白皮书,肯定了AIGC是迈向数字文明新时代的不可或缺的支持力量,并从政府、行业、企业、社会等方面对AIGC的发展给出了建议。2023年,中国互联网信息办公室发布了《关于征求生成式人工智能服务管理办法(征求意见稿)意见的通知》,提出了从各个方面规范使用AIGC算法,保护用户的权益和数据安全.

1.2.2 技术视角

除了每个国家发布的相关法律和规定,从技术的角度看,可能出现许多来自AIGC的隐私和安全问题,隐私安全受到威胁的可能性持续增加。因此,迫切需要提出解决方案,以保护在AIGC下的数据隐私安全。

• 深度伪造技术:AIGC的快速发展引发了对深度伪造技术[220]的担忧,该技术使用基于AI的技术生成接近真实的照片、电影或音频,这些可以用来描述不存在的事件或个人。深度伪造技术的出现使得篡改或生成高度真实且无法区分的音频和视频内容成为可能,这最终无法被观察者的肉眼区分。一方面,伪造的内容可以误导其他人相信生成的假信息,如果不防止,肯定会给国家安全、公民和企业的权益带来新的风险,并在社会发展中引发潜在的危机。另一方面,伪造的内容对个人隐私和安全构成潜在威胁,例如,恶意用户可以使用这些图像进行欺诈和其他非法活动。

• 不够好的内容:不够好的内容意味着内容不够真实或甚至有毒。当AI生成的内容不够真实时,很容易让用户认为AIGC生成能力有限,并对AIGC模型本身产生负面印象,这阻碍了AIGC模型的发展。当AI生成的内容是有毒的,它可能对人类的认知产生影响,这涉及到道德和伦理问题。伦理是AIGC技术发展中不能忽视的一个方面,涉及到AI和人类社会之间的价值观、道德、法律观念等问题。AI生成内容的潜在毒性是指AI生成的内容存在偏见,即,AIGC可能生成违反社会价值的内容,因此它很容易成为许多恶意人士的工具。

• 易受攻击的模型:恶意用户可以利用AIGC模型的漏洞攻击模型,并向输入数据中添加有意的干扰信号以欺骗AIGC模型的行为。这可能导致模型生成错误的输出,或者以有意的方式生成误导信息。并且,使用模型反向传播攻击也可能从一些输出中推断出用于模型原始训练的数据,这可以引发

1.3 贡献

在这篇调查报告中,我们提供了AIGC的介绍,AIGC中的安全和隐私问题,以及我们提出的解决方案。这项调查的贡献如下: • 我们回顾并总结了AIGC的定义和分类,并列举了其背景技术、基本模型和应用等。我们强调了在这个领域解决隐私和安全问题的紧迫性。

• 我们从流通数据的隐私、生成内容的安全、以及恶意用户的威胁等角度,分析了AIGC面临的隐私和安全挑战。我们通过具体的例子,特别是关注AIGC中的版权问题,说明了这些在AIGC中的挑战对用户安全所构成的重大威胁。

• 我们全面总结了AIGC中隐私保护和数据安全的当前状况,并研究了各种可用的应对策略,以及这些方法的优点和缺点。

• 我们首次系统地讨论了区块链和隐私计算在提高AIGC安全性中的重要作用,提供了一些示例案例,其中结合了区块链、联邦学习和数字水印等技术与AIGC,并揭示了它们在解决AIGC数据隐私、内容安全和知识产权问题方面的巨大潜力。

2 初步和相关技术

在这一部分,我们将介绍关于AIGC技术的背景和详细信息。具体来说,我们将探讨AIGC的定义,它的流行模型和应用,以及可能在AIGC中使用的隐私和安全技术。

AIGC,人工智能生成内容,是通过生成模型通过用户的输入输出的内容。近年来,AIGC开始被视为与PGC和UGC并列的新型内容创作方式。AIGC可以从人类创作的无数作品中学习到底层的艺术风格和创造性模式,因此AIGC模型可以基于此生成更多样化和真实感强的内容。最近,基于Diffusion Model的稳定扩散在图像生成上的强大能力,以及基于Transformer模型的ChatGPT在文本生成上的表现,使AIGC得到了极大的关注。

在大数据时代,数据安全和隐私保护问题是无法避免的,特别是在AIGC盛行的情况下,这些问题将变得更为严重。本节将简要介绍四种相关技术,它们可以用来解决AIGC中的数据安全和隐私保护问题。

3 挑战

从前一节我们可以知道,作为一种新兴的内容生成方法,AIGC正在越来越多的领域得到使用。然而,如图2所示,AIGC中存在一些隐私和安全的挑战。生成型AI模型可能会利用用户数据作为进一步迭代的训练数据,这引起了关于用户数据隐私的重大关注。此外,由生成型AI模型生成的内容难以控制,可能含有虚假和欺骗性的内容,对用户给予错误的引导,或者含有歧视性和偏见性的内容,可能导致不良的社会影响。生成型AI模型本身也可能被恶意用户攻击,导致一些隐私和安全问题。在本节中,我们将介绍AIGC中的隐私和安全挑战,这些是在AIGC的实际应用中不可忽视的重要问题。

4 应对措施

从第三节的描述中我们可以清楚地看到,生成式AI正在迅速发展,并且与人类社会的联系越来越密切。这种发展趋势也暴露出AIGC的隐私和安全问题。因此,如何将现有的隐私计算和各种安全技术应用到生成式AI成为了今天必须面对的主题。数据的隐私和安全是让AIGC更好地服务于人类社会的关键之一。只有正确处理由AIGC带来的隐私和安全问题,我们才能推动生成式AI的可持续发展。在下文中,我们将描述现有的用于生成式AI中的隐私保护和保障数据安全的技术。

5 开放性问题与未来方向

AIGC中的隐私和安全问题引起了很多关注。尽管从不同的角度出发,已经有许多解决方案,但如何捍卫AIGC模型的数据安全仍然是一个远未完全探索的领域。我们从新的场景、可能的技术等几个角度,展望AIGC隐私和安全的未来方向。 5.1高危场景 5.2及时性 5.3可持续发展 5.4公平 5.5 AIGC遇到新兴领域

6 结论

随着ChatGPT等大模型驱动的AIGC服务进入人们的日常生活,它们给用户带来的隐私和安全问题逐渐显现并成为AIGC时代亟待解决的问题之一。我们首先对AIGC的定义、分类和通用技术进行了简要介绍,同时强调了保护AIGC的隐私和安全的紧迫性,指出隐私计算等技术可以与AIGC模型相结合。然后,我们从流通数据的隐私、生成内容的安全、版权和恶意用户的威胁等几个角度描述了AIGC当前面临的挑战。我们把研究重点放在了AIGC隐私和安全的解决方案上,运用了区块链、联邦学习、数字水印、差分隐私等技术。它们为解决包括AIGC工具在内的生成模型的隐私和安全问题提供了丰富的解决方案。然而,目前在AIGC中解决隐私和安全问题的方案还不够成熟,大模型的快速发展为AI领域带来了许多新的挑战。我们在论文的最后讨论了一些开放性问题和可能的AIGC隐私和安全的未来方向。我们希望这篇综述能为AIGC的隐私和安全问题提供一个概览,并为学术界和工业界如何更好地利用AIGC提供新的思路。

成为VIP会员查看完整内容
47

相关内容

人工智能生成内容
【ChatGPT系列报告】AIGC最新应用与场景研究,95页ppt
专知会员服务
152+阅读 · 2023年5月29日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
172+阅读 · 2023年2月13日
专知会员服务
47+阅读 · 2021年6月12日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2023年7月27日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
26+阅读 · 2018年9月21日
VIP会员
相关VIP内容
【ChatGPT系列报告】AIGC最新应用与场景研究,95页ppt
专知会员服务
152+阅读 · 2023年5月29日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
172+阅读 · 2023年2月13日
专知会员服务
47+阅读 · 2021年6月12日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
微信扫码咨询专知VIP会员