DeepSeek与其他大型语言模型的比较

最近，DeepSeek 在人工智能社区及其外部引起了广泛关注。一个有趣的问题是，DeepSeek 与其他大型语言模型（LLMs）相比如何。在许多 LLM 可以执行的任务中，本文选择了使用简短文本进行预测结果的任务进行比较。我们考虑了两种设置，一种是作者分类任务，另一种是引用分类任务。在第一个设置中，目标是确定一段简短文本是由人类还是 AI 撰写。在第二个设置中，目标是根据文本内容将引用分类为四种类型之一。对于每个实验，我们将 DeepSeek 与 4 种流行的 LLM 进行比较：Claude、Gemini、GPT 和 Llama。我们发现，在分类准确性方面，DeepSeek 在大多数情况下优于 Gemini、GPT 和 Llama，但在与 Claude 的比较中表现较差。我们还发现，DeepSeek 的运行速度与其他模型相当，但使用成本较低，而 Claude 的成本则远高于其他模型。最后，我们发现，在相似度方面，DeepSeek 的输出与 Gemini 和 Claude 最为相似（在所有五种 LLM 中，Claude 和 Gemini 的输出最为相似）。本文还展示了我们自己收集的一个完全标注的数据集，并提出了一种方法，利用 LLM 和近期的数据集 MADStat 来生成新的数据集。我们论文中的数据集可作为未来 LLM 研究的基准。关键词：引用分类、AI 生成文本检测、MADStat、提示、文本分析、文本内容。

1 引言

在过去的两周里，DeepSeek（DS），一款近期发布的大型语言模型（LLM）（DeepSeek-AI，2024），引起了整个人工智能行业的关注。自2025年1月20日发布最新版本以来，DS 已登上新闻和社交媒体的头条，迅速成为苹果商店下载量的顶端，令投资者惊讶不已，并使一些科技股，包括 Nvidia，出现下跌。DeepSeek 的特别之处在于，在一些基准任务中，它达到了与行业巨头（如 OpenAI 的 ChatGPT）相同甚至更好的结果，但训练成本却只有其一小部分。例如： * 在 Evstafev（2024）中，作者展示了基于 MATH 数据集（Hendrycks et al., 2021）衍生的30多个具有挑战性的数学问题，DeepSeek-R1 在这些复杂问题上取得了优于 ChatGPT 和 Gemini 等的准确性。 * 在2025年1月28日的 LinkedIn 帖子中，Javier Aguirre（专注于医学与人工智能的研究员，韩国）写道：“我对 DeepSeek 印象深刻……今天我遇到了一个非常棘手且复杂的（编程）问题。即便是 chatGPT-o1 也无法推理出足够的信息来解决它。我尝试了 DeepSeek，它立刻解决了这个问题，直击要点。” 这一观点得到了其他 AI 研究人员的认可。有关更多比较，请参见 DeepSeek-AI（2024）；Zuo et al.（2025）；Arrieta et al.（2025）。当然，一个复杂的 LLM 涉及多个方面（如基础设施、架构、性能、成本等），并能够完成许多任务。上面讨论的任务仅是 LLM 能够执行的一小部分。因此，进行更全面和深入的比较是十分必要的。显然，这样的比较可能需要大量时间和精力，但一些有趣的讨论已经出现在互联网上和社交媒体上（如 Ramadhan（2025））。我们尤其关注 LLM 在预测准确性方面的表现。尽管关于该话题的文献非常丰富（例如，Friedman et al.（2001）），但使用 LLM 进行预测仍然具有优势：传统方法可能需要一个合理的训练样本集，而 LLM 仅需一个提示即可工作。因此，一个重要的问题是，DS 在预测准确性方面与其他 LLM 的比较。在本文中，我们考虑了以下两种分类设置。 * 作者分类（AC）：确定文档是由人类生成（hum）、AI 生成（AI），还是由人类生成但经过 AI 编辑（humAI）。 * 引用分类（CC）：给定一个（学术）引用及其周围的简短文本，确定该引用属于哪种类型（见下文的四种引用类型）。对于这两种设置，我们将 DeepSeek-R1（DS）与四种代表性 LLM 进行比较：OpenAI 的 GPT-4o-mini（GPT）、Google 的 Gemini-1.5-flash（Gemini）、Meta 的 Llama-3.1-8b（Llama）和 Anthropic 的 Claude-3.5-sonnet（Claude）。接下来，我们将详细讨论这两种设置。1.1 作者分类在过去的两年中，AI 生成的文本内容开始迅速传播，影响了互联网、工作场所和日常生活。这引发了一个问题：如何区分 AI 生成的内容和人类生成的内容（Kreps et al., 2022；Danilevsky et al., 2020）。这个问题至少有两个有趣的方面。首先，AI 生成的内容可能包含有害的虚假信息，特别是在健康护理、新闻和金融等领域（Kreps et al., 2022），虚假和误导性信息的传播可能威胁到在线资源的完整性。其次，理解人类生成的内容与 AI 生成的内容之间的主要区别，可以显著帮助改进 AI 语言模型（Danilevsky et al., 2020）。我们通过考虑两种分类设置来解决这个问题：AC1 和 AC2。 * （AC1）：在第一个设置中，我们专注于区分人类生成的文本与 AI 生成的文本（即，hum vs. AI）。 * （AC2）：在第二个设置中，我们考虑区分由人类生成的文本和经过 AI 编辑的由人类生成的文本（即，hum vs. humAI）。对于实验，我们建议使用近期的 MADStat 数据集（Ji et al., 2022；Ke et al., 2024）。MADStat 是一个大型统计出版物数据集，包含来自 36 本统计学及相关领域期刊的 83,331 篇论文的 BibTeX 和引用信息，时间跨度为 1975 到 2015 年。该数据集可以免费下载（下载链接请见第 2 节）。我们提出了一种通用的方法，利用 LLM 和 MADStat 来生成新的数据集进行研究。我们首先选择一些作者，并收集他们在 MADStat 中发表的所有论文。对于每篇论文，MADStat 包含标题和摘要。 * （hum）：我们将所有摘要作为人类生成的文本。 * （AI）：对于每篇论文，我们将标题输入 GPT-4o-mini，要求其生成摘要。我们将这些摘要视为 AI 生成的文本。 * （humAI）：对于每篇论文，我们还要求 GPT-4o-mini 编辑摘要。我们将这些摘要视为经过 AI 编辑的人类生成文本。看起来，使用这种方法，我们可以生成许多不同的数据集。这些数据集提供了一个有用的平台，供我们比较不同的分类方法，尤其是 5 种 LLM。备注 1（MadStatAI 数据集）：在第 2.2 节中，我们在 MADStat 数据集中固定了 15 位作者（见表 2），并生成了一个包含 582 个摘要三元组的数据集（每个三元组包含三个摘要：hum、AI 和 humAI）。为了简化，我们将此数据集称为 MadStatAI。一旦数据集准备好，我们就可以使用上述 5 种 LLM 进行分类，使用相同的提示。详情请见第 2.1 节。请注意，除了 LLM，我们还可以将其他算法应用于该问题（Solaiman et al., 2019；Zellers et al., 2019；Gehrmann et al., 2019；Ippolito et al., 2020；Fagni et al., 2021；Adelani et al., 2020；Kashtan 和 Kipnis, 2024）。然而，由于本文的重点是将 DeepSeek 与其他 LLM 进行比较，因此我们仅考虑上述 5 种 LLM 分类器。1.2 引用分类当一篇论文被引用时，这个引用可能是重要的也可能是不重要的。因此，在评估一篇论文的影响力时，我们不仅关心它被引用的次数，还关心它有多少重要的引用。挑战在于，尽管统计一篇论文的原始引用次数（例如通过 Google Scholar 或 Web of Science）相对较为容易，但如何统计一篇论文的“重要”引用次数却不明确。为了解决这一问题，请注意，引用实例周围通常会有一段简短的文本。该文本包含了关于引用的重要信息，我们可以利用它来预测该引用的类型。这就引出了引用分类的问题，其目标是利用引用周围的简短文本来预测引用类型。在这里，我们面临两个挑战。首先，学术引用可能有多少种不同类型，以及这些类型是什么，这一点尚不清楚。其次，我们没有现成可用的数据集。为了解决这些挑战，首先，在回顾了大量文献和实证结果后，我们提出将所有学术引用分为四种不同类型：“基础思想（FI）”“技术基础（TB）”“背景（BG）”“比较（CP）”为了简化起见，我们将这四种类型编码为“1”、“2”、“3”、“4”。注意，前两种类型被视为重要引用，而后两种类型被视为相对不重要的引用。详细信息见第2.2节。其次，我们通过大量努力，亲自从头开始收集了一个新的数据集，命名为 CitaStat。在该数据集中，我们下载了1996至2020年间四本代表性统计学期刊中的所有论文PDF文件，这些论文包含约36万次引用实例。在我们的研究中，我们选择了3000个引用实例。对于每个引用：我们编写代码从PDF文件中选择引用周围的小段文本，并将其转换为可用的文本文件。我们手动将每个引用标记为上述四种引用类型中的一种。详见第2.2节。因此，CitaStat 是一个完全标注的数据集，包含3000个样本，其中每个y变量的值为 {1, 2, 3, 4}（如上所述），每个x变量是对应引用的简短文本，我们称之为该引用的文本内容。现在，我们可以使用该数据集比较上述五种 LLM 在引用分类任务中的表现。我们考虑了两个实验：（CC1）：一个四类分类实验，我们使用未经修改的 CitaStat 数据集。（CC2）：一个两类分类实验，我们将“1”和“2”（‘FI’ 和 ‘TB’）合并为一个新的类别“S”（重要引用），将“3”和“4”（‘BG’ 和 ‘CP’）合并为一个新的类别“I”（偶然引用）。1.3 结果与贡献我们将所有五种 LLM 应用到四个实验（AC1、AC2、CC1、CC2），并得出了以下观察结果：在分类错误方面，Claude 始终优于其他所有 LLM 方法。DeepSeek-R1 的表现逊色于 Claude，但在大多数情况下优于 Gemini、GPT 和 Llama。GPT 在 AC1 和 AC2 中的表现不佳，错误率接近随机猜测，但在 CC1 和 CC2 中的表现比随机猜测要好得多。Llama 的表现不尽如人意：它的错误率要么与随机猜测相当，要么甚至更高。在计算时间方面，Gemini 和 GPT 的速度远快于其他三种方法，而 DeepSeek-R1 最慢（DeepSeek 的旧版本 DeepSeekV3 更快，但其表现不如 DeepSeek-R1）。在成本方面，Claude 对客户来说远比其他方法昂贵。例如，对于 CC1 和 CC2，Claude 的成本为 $12.30，而 Llama 的成本为 $1.2，其他三种方法（DeepSeek、Gemini 和 GPT）的成本不超过 $0.3。在输出相似性方面，DeepSeek 与 Gemini 和 Claude 最为相似（GPT 和 Llama 在 AC1 和 AC2 中的输出非常相似，但两者的表现相对不理想）。**总体来说，我们发现 Claude 和 DeepSeek 具有最低的错误率，但 Claude 相对昂贵，而 DeepSeek 相对较慢。**我们做出了以下贡献。首先，随着 DeepSeek 成为 AI 社区内外的焦点，迫切需要了解它与其他流行的 LLM（大型语言模型）之间的比较。通过两个有趣的分类问题，我们展示了 DeepSeek 在使用一小段文本预测结果的任务中具有竞争力。其次，我们提出引用分类作为一个有趣的新问题，理解这一问题有助于评估学术研究的影响力。最后但同样重要的是，我们提供了 CitaStat 作为一个新的数据集，供评估学术研究使用。我们还提出了一个通用的生成新数据集的方法（以 MadStatAI 为例），用于研究 AI 生成的文本。这些数据集可以作为基准，用于比较不同算法，并学习人类生成的文本与 AI 生成的文本之间的差异。

成为VIP会员查看完整内容

相关内容

DeepSeek

关注 49

深度求索（DeepSeek），全称杭州深度求索人工智能基础技术研究有限公司，是中国的一家人工智能与大型语言模型公司。2025年1月10日，DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日，DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3]，并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元

大规模语言模型的个性化：综述

专知会员服务

42+阅读 · 2024年11月4日

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

84+阅读 · 2024年5月3日

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

52+阅读 · 2024年4月9日

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

专知会员服务

64+阅读 · 2024年3月14日