The rapid advancement of Large Language Models (LLMs) presents a significant challenge to academic integrity within computing education. As educators seek reliable detection methods, this paper evaluates the capacity of three prominent LLMs (GPT-4, Claude, and Gemini) to identify AI-generated text in computing-specific contexts. We test their performance under both standard and 'deceptive' prompt conditions, where the models were instructed to evade detection. Our findings reveal a significant instability: while default AI-generated text was easily identified, all models struggled to correctly classify human-written work (with error rates up to 32%). Furthermore, the models were highly susceptible to deceptive prompts, with Gemini's output completely fooling GPT-4. Given that simple prompt alterations significantly degrade detection efficacy, our results demonstrate that these LLMs are currently too unreliable for making high-stakes academic misconduct judgments.


翻译:大型语言模型(LLMs)的快速发展对计算机教育领域的学术诚信构成了重大挑战。随着教育工作者寻求可靠的检测方法,本文评估了三种主流LLMs(GPT-4、Claude和Gemini)在计算机特定语境中识别AI生成文本的能力。我们在标准提示和"欺骗性"提示条件下测试了它们的性能,其中模型被指示规避检测。我们的研究结果揭示了显著的不稳定性:虽然默认的AI生成文本容易被识别,但所有模型都难以正确分类人类撰写的作业(错误率高达32%)。此外,这些模型对欺骗性提示高度敏感,Gemini的输出甚至完全骗过了GPT-4。鉴于简单的提示修改就能显著降低检测效能,我们的结果表明,这些LLMs目前对于做出高风险学术不端判断而言仍具有不可靠性。

0
下载
关闭预览

相关内容

大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员