AI学者也用维基百科「打广告」？这个词条有点可疑

会员服务 ·

AI学者也用维基百科「打广告」？这个词条有点可疑

2020 年 3 月 16 日 机器之心

机器之心报道

参与：张倩、泽南、蛋酱

维基百科上的词条内容，可能会被人修改并谋取私利，而且这一情况就发生在 AI 学术圈。

「遇事不决先谷歌」已经是现在很多人查找信息的标准起手了。如果搜索一个词条，百科网站的结果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息，虽然可能不够严谨，但也被很多人作为重要的信息、知识来源。

不过，最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条，比如 Reddit 网友发现的「SGD（随机梯度下降）」一词。

这位发帖者表示，ta 本来打算读一些关于梯度下降的资料，但却发现维基百科有关这一主题的词条就像一条广告。

为什么这么说呢？我们先来看一下这个词条的结构。除了常规的背景、示例、应用等介绍外，词条还包含 SGD 的「扩展和变体」，这部分列出了 RMSProp、Adam 等知名算法和一些「二阶方法」。

「SGD」词条的结构。上图为历史版本，新版本不包含图中的 5.7。历史版本链接：https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087

问题就出在这部分「扩展和变体」。要按说，能和 RMSProp、Adam 并列，这里列出的方法肯定都不差。但发帖者却发现，这部分包含了一篇比较冷门的论文（上图中的 5.7），文中提到了一种基于 Kalman 的随机梯度方法。

词条历史版本中对上述方法的介绍。

上文中提到的论文。数据来源：Google Scholar。

这是一篇 2016 年的论文，被引用量只有 22 次。要知道，与其并列的 Adam 在 Google Scholar 上的引用量高达 3 万 9 千多次。

这事儿就非常可疑了，于是他决定进一步挖掘信息。这是一篇 2017 年 2 月添加的文章，被添加进词条的时候，该论文的引用量似乎是 0，添加者是一位用户名为「Vp314」的用户。凑巧的是，论文作者的 gmail 用户名也是「Vp314」。

而且，这位用户对「SGD」词条的唯一贡献就是添加他的这项技术：第一次是将「Kalman-based Stochastic Gradient Descent」添加到「扩展和变体」；第二次是稍加改动；第三次是被删除之后重新添加，被删的理由是「最近几乎没有被学术界引用。」「这个词条出现在维基百科上使其看起来像是一种成熟的技术，但其实并不是。」

「梯度下降」这种概念在机器学习领域肯定是必须要懂的知识，修改这个词条颇有点修改教科书的意味。更令人担心的是，这很可能仅仅是被个别研究员/学者恶意修改内容的一小部分。

机器学习领域自我宣传的竞争已经到了这样的程度，不禁令人感叹。

其实在维基百科上，还有很多类似的奇葩操作，或许只是我们都没发现。

比如有一位留言者回忆起自己读大学的时候，他的室友成功编辑了维基百科词条，说自己是网球的发明者。在这之后，有一些文章和书籍在援引材料时，就真的将此人视为网球发明者……

当然，这种恶作剧并未给篡改者本人带来直接利益，更多的人或者机构会利用词条来获取商业利益。

「如果你对维基百科足够了解，就会发现这里面充满了政治、个人偏见、SEO 内容、学术广告等等。相比其他，IT 领域的词条内容质量还算可以的，因为这个领域的人都精通计算机（emmm 这么说好像上世纪 90 年代的说法），他们一般都会检查来源或者屏蔽垃圾内容。但是其他科学领域的词条会更糟糕，充斥着大量的无用内容。」

这位留言者认为，在事实正确性和清晰度方面，维基百科甚至还不如高中教科书，更不能和正规的百科书籍相提并论。

早在 2005 年，《Nature》就曾对维基百科和代表传统百科全书的《大英百科全书》各自全书间的 41 篇科学内容做过调查，最后得出结论，在科学文章这一领域，维基百科与《大英百科全书》有着相似的精确度，但两者在内容上都有一定程度上的「严重缺失」。但至少，《大英百科全书》无法让任意一个人「自由编辑」。