Artificial Intelligence Generated Content (AIGC) has garnered considerable attention for its impressive performance, with ChatGPT emerging as a leading AIGC model that produces high-quality responses across various applications, including software development and maintenance. Despite its potential, the misuse of ChatGPT poses significant concerns, especially in education and safetycritical domains. Numerous AIGC detectors have been developed and evaluated on natural language data. However, their performance on code-related content generated by ChatGPT remains unexplored. To fill this gap, in this paper, we present the first empirical study on evaluating existing AIGC detectors in the software domain. We created a comprehensive dataset including 492.5K samples comprising code-related content produced by ChatGPT, encompassing popular software activities like Q&A (115K), code summarization (126K), and code generation (226.5K). We evaluated six AIGC detectors, including three commercial and three open-source solutions, assessing their performance on this dataset. Additionally, we conducted a human study to understand human detection capabilities and compare them with the existing AIGC detectors. Our results indicate that AIGC detectors demonstrate lower performance on code-related data compared to natural language data. Fine-tuning can enhance detector performance, especially for content within the same domain; but generalization remains a challenge. The human evaluation reveals that detection by humans is quite challenging.


翻译:人工智能生成内容(AIGC)因其卓越的表现而受到了相当多的关注,ChatGPT作为一种领先的AIGC模型,在包括软件开发和维护在内的各种应用中产生了高质量的响应。尽管它有潜力,但ChatGPT的误用引起了重大关注,特别是在教育和安全关键领域。已经开发了许多AIGC检测器,并在自然语言数据上进行了评估。然而,它们在由ChatGPT生成的代码相关内容上的表现仍未得到探索。为了填补这一空白,本文在软件领域中首次进行了评估现有AIGC检测器的实证研究。我们创建了一个包含48.25万个样本的全面数据集,其中包括ChatGPT生成的代码相关内容,包括问答(Q&A)(11.5万)、代码概述(12.6万)和代码生成(22.65万)等热门软件活动。我们评估了六种AIGC检测器,包括三种商业和三种开源解决方案,评估它们在此数据集上的性能。此外,我们进行了一项人类研究,以了解人类检测能力并将其与现有AIGC检测器进行比较。我们的结果表明,与自然语言数据相比,AIGC检测器在代码相关数据上表现较低。微调可以增强检测器性能,尤其是在同一领域的内容上;但是,普适性仍然是一个挑战。人类评估表明,人类检测非常具有挑战性。

1
下载
关闭预览

相关内容

人工智能生成内容
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
专知会员服务
88+阅读 · 2021年6月29日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月25日
VIP会员
相关VIP内容
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
专知会员服务
88+阅读 · 2021年6月29日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员