最近,DeepSeek 在人工智能社区及其外部引起了广泛关注。一个有趣的问题是,DeepSeek 与其他大型语言模型(LLMs)相比如何。在许多 LLM 可以执行的任务中,本文选择了使用简短文本进行预测结果的任务进行比较。我们考虑了两种设置,一种是作者分类任务,另一种是引用分类任务。在第一个设置中,目标是确定一段简短文本是由人类还是 AI 撰写。在第二个设置中,目标是根据文本内容将引用分类为四种类型之一。对于每个实验,我们将 DeepSeek 与 4 种流行的 LLM 进行比较:Claude、Gemini、GPT 和 Llama。我们发现,在分类准确性方面,DeepSeek 在大多数情况下优于 Gemini、GPT 和 Llama,但在与 Claude 的比较中表现较差。我们还发现,DeepSeek 的运行速度与其他模型相当,但使用成本较低,而 Claude 的成本则远高于其他模型。最后,我们发现,在相似度方面,DeepSeek 的输出与 Gemini 和 Claude 最为相似(在所有五种 LLM 中,Claude 和 Gemini 的输出最为相似)。本文还展示了我们自己收集的一个完全标注的数据集,并提出了一种方法,利用 LLM 和近期的数据集 MADStat 来生成新的数据集。我们论文中的数据集可作为未来 LLM 研究的基准。关键词:引用分类、AI 生成文本检测、MADStat、提示、文本分析、文本内容。
1 引言
在过去的两周里,DeepSeek(DS),一款近期发布的大型语言模型(LLM)(DeepSeek-AI,2024),引起了整个人工智能行业的关注。自2025年1月20日发布最新版本以来,DS 已登上新闻和社交媒体的头条,迅速成为苹果商店下载量的顶端,令投资者惊讶不已,并使一些科技股,包括 Nvidia,出现下跌。DeepSeek 的特别之处在于,在一些基准任务中,它达到了与行业巨头(如 OpenAI 的 ChatGPT)相同甚至更好的结果,但训练成本却只有其一小部分。例如: * 在 Evstafev(2024)中,作者展示了基于 MATH 数据集(Hendrycks et al., 2021)衍生的30多个具有挑战性的数学问题,DeepSeek-R1 在这些复杂问题上取得了优于 ChatGPT 和 Gemini 等的准确性。 * 在2025年1月28日的 LinkedIn 帖子中,Javier Aguirre(专注于医学与人工智能的研究员,韩国)写道:“我对 DeepSeek 印象深刻……今天我遇到了一个非常棘手且复杂的(编程)问题。即便是 chatGPT-o1 也无法推理出足够的信息来解决它。我尝试了 DeepSeek,它立刻解决了这个问题,直击要点。” 这一观点得到了其他 AI 研究人员的认可。有关更多比较,请参见 DeepSeek-AI(2024);Zuo et al.(2025);Arrieta et al.(2025)。当然,一个复杂的 LLM 涉及多个方面(如基础设施、架构、性能、成本等),并能够完成许多任务。上面讨论的任务仅是 LLM 能够执行的一小部分。因此,进行更全面和深入的比较是十分必要的。显然,这样的比较可能需要大量时间和精力,但一些有趣的讨论已经出现在互联网上和社交媒体上(如 Ramadhan(2025))。 我们尤其关注 LLM 在预测准确性方面的表现。尽管关于该话题的文献非常丰富(例如,Friedman et al.(2001)),但使用 LLM 进行预测仍然具有优势:传统方法可能需要一个合理的训练样本集,而 LLM 仅需一个提示即可工作。因此,一个重要的问题是,DS 在预测准确性方面与其他 LLM 的比较。在本文中,我们考虑了以下两种分类设置。 * 作者分类(AC):确定文档是由人类生成(hum)、AI 生成(AI),还是由人类生成但经过 AI 编辑(humAI)。 * 引用分类(CC):给定一个(学术)引用及其周围的简短文本,确定该引用属于哪种类型(见下文的四种引用类型)。 对于这两种设置,我们将 DeepSeek-R1(DS)与四种代表性 LLM 进行比较:OpenAI 的 GPT-4o-mini(GPT)、Google 的 Gemini-1.5-flash(Gemini)、Meta 的 Llama-3.1-8b(Llama)和 Anthropic 的 Claude-3.5-sonnet(Claude)。接下来,我们将详细讨论这两种设置。1.1 作者分类在过去的两年中,AI 生成的文本内容开始迅速传播,影响了互联网、工作场所和日常生活。这引发了一个问题:如何区分 AI 生成的内容和人类生成的内容(Kreps et al., 2022;Danilevsky et al., 2020)。这个问题至少有两个有趣的方面。首先,AI 生成的内容可能包含有害的虚假信息,特别是在健康护理、新闻和金融等领域(Kreps et al., 2022),虚假和误导性信息的传播可能威胁到在线资源的完整性。其次,理解人类生成的内容与 AI 生成的内容之间的主要区别,可以显著帮助改进 AI 语言模型(Danilevsky et al., 2020)。我们通过考虑两种分类设置来解决这个问题:AC1 和 AC2。 * (AC1):在第一个设置中,我们专注于区分人类生成的文本与 AI 生成的文本(即,hum vs. AI)。 * (AC2):在第二个设置中,我们考虑区分由人类生成的文本和经过 AI 编辑的由人类生成的文本(即,hum vs. humAI)。 对于实验,我们建议使用近期的 MADStat 数据集(Ji et al., 2022;Ke et al., 2024)。MADStat 是一个大型统计出版物数据集,包含来自 36 本统计学及相关领域期刊的 83,331 篇论文的 BibTeX 和引用信息,时间跨度为 1975 到 2015 年。该数据集可以免费下载(下载链接请见第 2 节)。我们提出了一种通用的方法,利用 LLM 和 MADStat 来生成新的数据集进行研究。我们首先选择一些作者,并收集他们在 MADStat 中发表的所有论文。对于每篇论文,MADStat 包含标题和摘要。 * (hum):我们将所有摘要作为人类生成的文本。 * (AI):对于每篇论文,我们将标题输入 GPT-4o-mini,要求其生成摘要。我们将这些摘要视为 AI 生成的文本。 * (humAI):对于每篇论文,我们还要求 GPT-4o-mini 编辑摘要。我们将这些摘要视为经过 AI 编辑的人类生成文本。 看起来,使用这种方法,我们可以生成许多不同的数据集。这些数据集提供了一个有用的平台,供我们比较不同的分类方法,尤其是 5 种 LLM。备注 1(MadStatAI 数据集):在第 2.2 节中,我们在 MADStat 数据集中固定了 15 位作者(见表 2),并生成了一个包含 582 个摘要三元组的数据集(每个三元组包含三个摘要:hum、AI 和 humAI)。为了简化,我们将此数据集称为 MadStatAI。一旦数据集准备好,我们就可以使用上述 5 种 LLM 进行分类,使用相同的提示。详情请见第 2.1 节。请注意,除了 LLM,我们还可以将其他算法应用于该问题(Solaiman et al., 2019;Zellers et al., 2019;Gehrmann et al., 2019;Ippolito et al., 2020;Fagni et al., 2021;Adelani et al., 2020;Kashtan 和 Kipnis, 2024)。然而,由于本文的重点是将 DeepSeek 与其他 LLM 进行比较,因此我们仅考虑上述 5 种 LLM 分类器。1.2 引用分类当一篇论文被引用时,这个引用可能是重要的也可能是不重要的。因此,在评估一篇论文的影响力时,我们不仅关心它被引用的次数,还关心它有多少重要的引用。挑战在于,尽管统计一篇论文的原始引用次数(例如通过 Google Scholar 或 Web of Science)相对较为容易,但如何统计一篇论文的“重要”引用次数却不明确。为了解决这一问题,请注意,引用实例周围通常会有一段简短的文本。该文本包含了关于引用的重要信息,我们可以利用它来预测该引用的类型。这就引出了引用分类的问题,其目标是利用引用周围的简短文本来预测引用类型。在这里,我们面临两个挑战。首先,学术引用可能有多少种不同类型,以及这些类型是什么,这一点尚不清楚。其次,我们没有现成可用的数据集。为了解决这些挑战,首先,在回顾了大量文献和实证结果后,我们提出将所有学术引用分为四种不同类型:“基础思想(FI)”“技术基础(TB)”“背景(BG)”“比较(CP)”为了简化起见,我们将这四种类型编码为“1”、“2”、“3”、“4”。注意,前两种类型被视为重要引用,而后两种类型被视为相对不重要的引用。详细信息见第2.2节。其次,我们通过大量努力,亲自从头开始收集了一个新的数据集,命名为 CitaStat。在该数据集中,我们下载了1996至2020年间四本代表性统计学期刊中的所有论文PDF文件,这些论文包含约36万次引用实例。在我们的研究中,我们选择了3000个引用实例。对于每个引用:我们编写代码从PDF文件中选择引用周围的小段文本,并将其转换为可用的文本文件。我们手动将每个引用标记为上述四种引用类型中的一种。详见第2.2节。因此,CitaStat 是一个完全标注的数据集,包含3000个样本,其中每个y变量的值为 {1, 2, 3, 4}(如上所述),每个x变量是对应引用的简短文本,我们称之为该引用的文本内容。现在,我们可以使用该数据集比较上述五种 LLM 在引用分类任务中的表现。我们考虑了两个实验:(CC1):一个四类分类实验,我们使用未经修改的 CitaStat 数据集。(CC2):一个两类分类实验,我们将“1”和“2”(‘FI’ 和 ‘TB’)合并为一个新的类别“S”(重要引用),将“3”和“4”(‘BG’ 和 ‘CP’)合并为一个新的类别“I”(偶然引用)。1.3 结果与贡献我们将所有五种 LLM 应用到四个实验(AC1、AC2、CC1、CC2),并得出了以下观察结果:在分类错误方面,Claude 始终优于其他所有 LLM 方法。DeepSeek-R1 的表现逊色于 Claude,但在大多数情况下优于 Gemini、GPT 和 Llama。GPT 在 AC1 和 AC2 中的表现不佳,错误率接近随机猜测,但在 CC1 和 CC2 中的表现比随机猜测要好得多。Llama 的表现不尽如人意:它的错误率要么与随机猜测相当,要么甚至更高。在计算时间方面,Gemini 和 GPT 的速度远快于其他三种方法,而 DeepSeek-R1 最慢(DeepSeek 的旧版本 DeepSeekV3 更快,但其表现不如 DeepSeek-R1)。在成本方面,Claude 对客户来说远比其他方法昂贵。例如,对于 CC1 和 CC2,Claude 的成本为 $12.30,而 Llama 的成本为 $1.2,其他三种方法(DeepSeek、Gemini 和 GPT)的成本不超过 $0.3。在输出相似性方面,DeepSeek 与 Gemini 和 Claude 最为相似(GPT 和 Llama 在 AC1 和 AC2 中的输出非常相似,但两者的表现相对不理想)。**总体来说,我们发现 Claude 和 DeepSeek 具有最低的错误率,但 Claude 相对昂贵,而 DeepSeek 相对较慢。**我们做出了以下贡献。首先,随着 DeepSeek 成为 AI 社区内外的焦点,迫切需要了解它与其他流行的 LLM(大型语言模型)之间的比较。通过两个有趣的分类问题,我们展示了 DeepSeek 在使用一小段文本预测结果的任务中具有竞争力。其次,我们提出引用分类作为一个有趣的新问题,理解这一问题有助于评估学术研究的影响力。最后但同样重要的是,我们提供了 CitaStat 作为一个新的数据集,供评估学术研究使用。我们还提出了一个通用的生成新数据集的方法(以 MadStatAI 为例),用于研究 AI 生成的文本。这些数据集可以作为基准,用于比较不同算法,并学习人类生成的文本与 AI 生成的文本之间的差异。