MIT切割大量文本黑科技!数十亿选择中“海底捞”出一本好书

2019 年 12 月 31 日 新智元



  新智元报道 

来源:MIT

编辑:向学

【新智元导读】MIT和IBM的研究人员结合了三种流行的文本分析工具——主题建模、词嵌入和最优传输——来每秒比较数千个文档。而且可以更快、更准确对文档分类,轻轻松松从数十亿选择中更快找到更相关的读物。戳右边链接上 新智元小程序 了解更多!

在线有数以十亿计的书籍、新闻故事和文档,如果你有时间浏览所有选项,现在正是阅读的最佳时机!MIT助理教授Justin Solomon说:“互联网上有大量文本,任何有助于切割这些材料的东西都是非常有用的。”

在线本文的数量比这还多得多


在MIT-IBM沃森人工智能实验室和MIT几何数据处理小组的帮助下,Solomon最近在NeurIPS会议上提出了一种切割大量文本的新技术。该技术结合了三种流行的文本分析工具——主题建模(Topic Modeling)、词嵌入(Word Embeddings)和最优传输(Optimal Transport),这比流行的文档分类基准的竞争方法提供更好、更快的结果。


如果一个算法知道你过去喜欢什么,它可以扫描出数百万个类似的可能性。随着自然语言处理技术的改进,那些“你可能也喜欢”的建议正变得越来越快,也越来越相关。


在NeurIPS提出的这种方法,是一种算法根据集合中的常用词将一种集合(比如说书)归纳成主题。然后将每本书分成5-15个最重要的主题,并估算每个主题对整本书的贡献。


NeurIPS 现场,热闹非凡,人潮涌动


为了比较书籍,研究人员使用了另外两种工具:词嵌入(一种将词转换成数字列表的技术,以反映词在流行用法中的相似性)与最优传输(一种计算在多个目的地之间的移动对象或数据点的最有效方式的框架)。

 

词嵌入使得两次利用最优传输成为可能:首先将集合中的主题作为一个整体进行比较,然后在任意两本书中比较常见主题的重叠程度。


该技术在扫描大量书籍和冗长的文档时特别有效。在这项研究中,研究人员提供了Frank Stockton的《战争辛迪加》(The Great War Syndicate)的例子,这本19世纪的美国小说,预言了核武器的兴起。如果你正在寻找一本类似的书,那么主题模型将有助于识别与其他书共享的主要主题——在这种情况下,是航海、元素和军事。


战争辛迪加


但是仅仅是一个主题模型并不能将Thomas Huxley在1863年的演讲《有机自然过去的环境》(The Past Condition of Organic Nature)确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者,他的演讲中充斥着化石和沉积作用,反映了关于地质学的新观点。当Huxley演讲中的主题与Stockton的小说通过最优传输相匹配时,出现了一些交叉主题:Huxley的地理、动植物、知识主题 ,分别与Stockton的航海、元素和军事主题紧密相关。


有机自然过去的环境


根据书籍的代表性主题(而不是单个词)对书籍进行建模,使高层次比较成为可能。该研究的主要作者、IBM研究员Mikhail Yurochkin说:“如果你让某人比较两本书,他们会把每本书分解成易于理解的概念,然后比较这些概念。” 


研究表明,结果是更快、更准确。研究人员在一秒钟内对比了Gutenberg Project数据集的1720对书籍,比次佳方法快800多倍。


Gutenberg Project数据集


与其它方法相比,该技术还可以更准确地对文档进行分类:例如,按作者对Gutenberg Project数据集中的书籍进行分组,按部门对亚马逊的产品评论分类,以及按体育项目对BBC体育报道分类。在一系列的可视化中,作者展示了他们的方法可以很好地按类型对文档进行聚类。


除了快速和更准确地对文档进行分类之外,该方法还提供了一个窗口来了解模型的决策过程(想想就很厉害~~)。通过出现的主题列表,用户可以看到模型推荐文档的原因。


您觉得这项技术厉不厉害?欢迎来小程序里跟我们交流、探讨哦~

参考资料:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

登录查看更多
0

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
49+阅读 · 2020年4月27日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
如何完成一篇有效的英文写作
中科院物理所
7+阅读 · 2018年4月13日
文本情感分析的预处理
Datartisan数据工匠
17+阅读 · 2018年3月8日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
3+阅读 · 2018年4月9日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
5+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
49+阅读 · 2020年4月27日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
相关资讯
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
如何完成一篇有效的英文写作
中科院物理所
7+阅读 · 2018年4月13日
文本情感分析的预处理
Datartisan数据工匠
17+阅读 · 2018年3月8日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
Top
微信扫码咨询专知VIP会员