成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
AI学者也用维基百科「打广告」?这个词条有点可疑
2020 年 3 月 16 日
机器之心
机器之心报道
参与:张倩、泽南、蛋酱
维基百科上的词条内容,可能会被人修改并谋取私利,而且这一情况就发生在 AI 学术圈。
「遇事不决先谷歌」已经是现在很多人查找信息的标准起手了。如果搜索一个词条,百科网站的结果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息,虽然可能不够严谨,但也被很多人作为重要的信息、知识来源。
不过,最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条,比如 Reddit 网友发现的「SGD(随机梯度下降)」一词。
这位发帖者表示,ta 本来打算读一些关于梯度下降的资料,但却发现维基百科有关这一主题的词条就像一条广告。
为什么这么说呢?我们先来看一下这个词条的结构。除了常规的背景、示例、应用等介绍外,词条还包含 SGD 的「扩展和变体」,这部分列出了 RMSProp、Adam 等知名算法和一些「二阶方法」。
「SGD」词条的结构。上图为历史版本,新版本不包含图中的 5.7。历史版本链接:https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087
问题就出在这部分「扩展和变体」。要按说,能和 RMSProp、Adam 并列,这里列出的方法肯定都不差。但发帖者却发现,这部分包含了一篇比较冷门的论文(上图中的 5.7),文中提到了一种基于 Kalman 的随机梯度方法。
词条历史版本中对上述方法的介绍。
上文中提到的论文。数据来源:Google Scholar。
这是一篇 2016 年的论文,被引用量只有 22 次。要知道,与其并列的 Adam 在 Google Scholar 上的引用量高达 3 万 9 千多次。
这事儿就非常可疑了,于是他决定进一步挖掘信息。这是一篇 2017 年 2 月添加的文章,被添加进词条的时候,该论文的引用量似乎是 0,添加者是一位用户名为「Vp314」的用户。凑巧的是,论文作者的 gmail 用户名也是「Vp314」。
而且,这位用户对「SGD」词条的唯一贡献就是添加他的这项技术:第一次是将「Kalman-based Stochastic Gradient Descent」添加到「扩展和变体」;第二次是稍加改动;第三次是被删除之后重新添加,被删的理由是「最近几乎没有被学术界引用。」
「这个词条出现在维基百科上使其看起来像是一种成熟的技术,但其实并不是。
」
「梯度下降」这种概念在机器学习领域肯定是必须要懂的知识,修改这个词条颇有点修改教科书的意味。更令人担心的是,这很可能仅仅是被个别研究员/学者恶意修改内容的一小部分。
机器学习领域自我宣传的竞争已经到了这样的程度,不禁令人感叹。
其实在维基百科上,还有很多类似的奇葩操作,或许只是我们都没发现。
比如有一位留言者回忆起自己读大学的时候,他的室友成功编辑了维基百科词条,说自己是网球的发明者。在这之后,有一些文章和书籍在援引材料时,就真的将此人视为网球发明者……
当然,这种恶作剧并未给篡改者本人带来直接利益,更多的人或者机构会利用词条来获取商业利益。
「如果你对维基百科足够了解,就会发现这里面充满了政治、个人偏见、SEO 内容、学术广告等等。相比其他,IT 领域的词条内容质量还算可以的,因为这个领域的人都精通计算机(emmm 这么说好像上世纪 90 年代的说法),他们一般都会检查来源或者屏蔽垃圾内容。但是其他科学领域的词条会更糟糕,充斥着大量的无用内容。」
这位留言者认为,在事实正确性和清晰度方面,维基百科甚至还不如高中教科书,更不能和正规的百科书籍相提并论。
早在 2005 年,《Nature》就曾对维基百科和代表传统百科全书的《大英百科全书》各自全书间的 41 篇科学内容做过调查,最后得出结论,在科学文章这一领域,维基百科与《大英百科全书》有着相似的精确度,但两者在内容上都有一定程度上的「严重缺失」。但至少,《大英百科全书》无法让任意一个人「自由编辑」。
有一位留言者提到,他最近听说了一种针对维基百科词条优化的「收费服务」,费用大概是 600 美元或者更多,可能让你拥有、撰写维基百科的词条,同时及时修改其他任何人所做的编辑。你甚至可以利用这项服务撰写支持或反对某个人/观点/机构的文章,然后发布相关报道和文章作为参考来源。
这类事情在其他领域也经常发生,一位留言者是信号处理领域的研究者,他指出,很多页面上的参考文献和方法都不是最新技术,并且内容也时常出错。如果运气好,你可能还会尴尬偶遇自己的同事在维基百科上「自吹自擂」。
他还提到了一个不算 ML 领域但也很有意思的事,2007 年的 Asilomar 大会上,他遇见了 James D. Johnston,James 曾经担任微软音频工程师,此前在 AT&T 贝尔实验室声学研究部工作过。
当时 James 在会上发表了一篇标题为《感知音频编码的发展史及时间线》的正式论文。James 说他写这篇论文的起因,其实是因为维基百科页面的错误。每次 James 试图更正维基百科页面的时候,都会被问「您对此了解多少?」,然后每次都会被拒。
目前,在维基百科上共有超过 110 万个词条。除学者之外,很多公司和组织都有投入资金和精力在维基百科上编辑对自己有利信息的情况。虽然从长远来看,人们总是会倾向于阅读真正有价值的内容,但代表特定利益的内容总是令人难以接受的,而且有时候它们还会停留在网页上很长一段时间。
看来在查找重要内容的时候,我们还需要更加严谨,至少要使用不同的信息来源进行一些对比。在这方面,你有更好的方法吗?
参考链接:
https://www.reddit.com/r/MachineLearning/comments/fhveru/d_researcherprofessor_possibly_using_wikipedia/
本
文为机器之心报道,
转载请联系本公众号获得授权
。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):
hr@jiqizhixin.com
投稿或寻求报道:content
@jiqizhixin.com
广告 & 商务合作:
bd@jiqizhixin.com
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
维基百科
关注
10
维基百科(
http://
Wikipedia.org
)是一个基于 Wiki 技术的全球性多语言百科全书协作项目,同时也是一部在网际网络上呈现的网络百科全书网站,其目标及宗旨是为全人类提供自由的百科全书。目前 Alexa 全球网站排名第六。
《为读博入坑开个好头》节省时间、减轻压力、稳步前进
专知会员服务
59+阅读 · 2020年7月1日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
最新《迁移学习:域自适应理论》综述论文,128页ppt讲解迁移学习与最优传输
专知会员服务
207+阅读 · 2020年4月27日
【经典】论文是怎样炼成的,108页PPT教你研究生毕业通关秘籍
专知会员服务
134+阅读 · 2020年3月21日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
53+阅读 · 2020年1月29日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
专知会员服务
45+阅读 · 2020年1月28日
如何用AI技术治理假新闻泛滥?看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述
专知会员服务
53+阅读 · 2020年1月11日
美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》
专知会员服务
95+阅读 · 2020年1月9日
人工智能学习笔记,247页pdf
专知会员服务
181+阅读 · 2019年12月14日
【Yoshua Bengio-先验意识论文最新版本】The Consciousness Prior,Yoshua Bengio
专知会员服务
18+阅读 · 2019年12月12日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
Kali Linux 渗透测试:密码攻击
计算机与网络安全
16+阅读 · 2019年5月13日
「AI寒冬论」| 风未停,猪未醒
线性资本
4+阅读 · 2018年8月27日
如果聊天机器人想要成功,还需要这个……
AI前线
7+阅读 · 2018年7月1日
剧透人生!你什么时候结婚换工作甚至狗带,Facebook都知道
大数据文摘
4+阅读 · 2018年6月27日
量子计算
人工智能学家
7+阅读 · 2018年4月6日
2017年你错过了哪些AI圈大事?最全盘点,值得收藏!
大数据文摘
5+阅读 · 2018年2月2日
谷歌要输给“邪恶的独角兽”了
商业周刊中文版
3+阅读 · 2017年12月17日
诈骗邮件无孔不入?这个邮件陪聊机器人能把骗子都聊跪 | 潮科技
36氪
4+阅读 · 2017年11月16日
贾跃亭的汽车梦,还轮不到我们嘲笑
虎嗅网
5+阅读 · 2017年7月6日
Unsupervised Domain Adaptation on Reading Comprehension
Arxiv
5+阅读 · 2019年11月13日
Explainable Recommendation: A Survey and New Perspectives
Arxiv
65+阅读 · 2019年8月15日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
Pre-Training with Whole Word Masking for Chinese BERT
Arxiv
11+阅读 · 2019年6月19日
Meta-Learning with Differentiable Convex Optimization
Arxiv
5+阅读 · 2019年4月23日
Large-Scale Stochastic Sampling from the Probability Simplex
Arxiv
3+阅读 · 2018年6月19日
Fine-grained Activity Recognition in Baseball Videos
Arxiv
6+阅读 · 2018年4月9日
Weakly Supervised Instance Segmentation using Class Peak Response
Arxiv
3+阅读 · 2018年4月3日
Mixed Supervised Object Detection with Robust Objectness Transfer
Arxiv
5+阅读 · 2018年3月13日
Learning to Count Objects in Natural Images for Visual Question Answering
Arxiv
11+阅读 · 2018年2月15日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
维基百科
SGD
Adam
梯度
随机梯度下降
Google Scholar
相关VIP内容
《为读博入坑开个好头》节省时间、减轻压力、稳步前进
专知会员服务
59+阅读 · 2020年7月1日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
最新《迁移学习:域自适应理论》综述论文,128页ppt讲解迁移学习与最优传输
专知会员服务
207+阅读 · 2020年4月27日
【经典】论文是怎样炼成的,108页PPT教你研究生毕业通关秘籍
专知会员服务
134+阅读 · 2020年3月21日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
53+阅读 · 2020年1月29日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
专知会员服务
45+阅读 · 2020年1月28日
如何用AI技术治理假新闻泛滥?看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述
专知会员服务
53+阅读 · 2020年1月11日
美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》
专知会员服务
95+阅读 · 2020年1月9日
人工智能学习笔记,247页pdf
专知会员服务
181+阅读 · 2019年12月14日
【Yoshua Bengio-先验意识论文最新版本】The Consciousness Prior,Yoshua Bengio
专知会员服务
18+阅读 · 2019年12月12日
热门VIP内容
开通专知VIP会员 享更多权益服务
《人类与人工智能在规划和执行军用直升机领域人机编队协同任务中的合作:概念、要求、设计、验证》220页
《人类-自主性编队协同: 是否需要一个基于团队的指导性框架?》
驾驭人机协同作战团队
《有人无人协同作战:F-35 如何支持地面战斗部队 (GCE) 》
相关资讯
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
Kali Linux 渗透测试:密码攻击
计算机与网络安全
16+阅读 · 2019年5月13日
「AI寒冬论」| 风未停,猪未醒
线性资本
4+阅读 · 2018年8月27日
如果聊天机器人想要成功,还需要这个……
AI前线
7+阅读 · 2018年7月1日
剧透人生!你什么时候结婚换工作甚至狗带,Facebook都知道
大数据文摘
4+阅读 · 2018年6月27日
量子计算
人工智能学家
7+阅读 · 2018年4月6日
2017年你错过了哪些AI圈大事?最全盘点,值得收藏!
大数据文摘
5+阅读 · 2018年2月2日
谷歌要输给“邪恶的独角兽”了
商业周刊中文版
3+阅读 · 2017年12月17日
诈骗邮件无孔不入?这个邮件陪聊机器人能把骗子都聊跪 | 潮科技
36氪
4+阅读 · 2017年11月16日
贾跃亭的汽车梦,还轮不到我们嘲笑
虎嗅网
5+阅读 · 2017年7月6日
相关论文
Unsupervised Domain Adaptation on Reading Comprehension
Arxiv
5+阅读 · 2019年11月13日
Explainable Recommendation: A Survey and New Perspectives
Arxiv
65+阅读 · 2019年8月15日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
Pre-Training with Whole Word Masking for Chinese BERT
Arxiv
11+阅读 · 2019年6月19日
Meta-Learning with Differentiable Convex Optimization
Arxiv
5+阅读 · 2019年4月23日
Large-Scale Stochastic Sampling from the Probability Simplex
Arxiv
3+阅读 · 2018年6月19日
Fine-grained Activity Recognition in Baseball Videos
Arxiv
6+阅读 · 2018年4月9日
Weakly Supervised Instance Segmentation using Class Peak Response
Arxiv
3+阅读 · 2018年4月3日
Mixed Supervised Object Detection with Robust Objectness Transfer
Arxiv
5+阅读 · 2018年3月13日
Learning to Count Objects in Natural Images for Visual Question Answering
Arxiv
11+阅读 · 2018年2月15日
大家都在搜
洛克菲勒
笛卡尔
大型语言模型
无人机蜂群
ETHZ博士论文
汽车智能化
大模型
MoE
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top