ReadHub及近似内容识别

2017 年 5 月 9 日 ResysChina clickstone

最近这几天,在试用 @Fenng 的新产品ReadHub(readhub.me),我个人看起来ReadHub要解决的问题比较类似于Techmeme,是一个内容的快速过滤器。Techmeme是个老古董了,从当年Web2.0热潮算起已经十年过去了,一直不算太火,但在小圈子里口碑很好,有不少大佬级的忠实读者,比如扎克伯格[1]。我估计应该有不少年轻读者没听说过Techmeme的,但我和Fenng这个年纪的,肯定都对这个事情太熟悉了,当年国外的google reader share、digg、techmeme、reddit,国内的抓虾、鲜果、无觅、豆瓣九点、玩聚,等等一大票产品,前仆后继地都在试图解决类似的信息过滤的问题。尤其是当年国内博客圈关于这类产品的blog讨论,很令人怀念的一段时光。后来差不多从11年开始,国外是reddit一骑绝尘,国内是今日头条一统江湖。我早年也是干这个的,但我不想再提了,全是泪。


ReadHub有个重要的基础功能,就是合并意思差不多的内容,类似ReadHub下图这样的。



早年这些事情我都干过,所以就突然想看看类似的事情在深度学习下有没有什么新解法。搜索了一下,发现了Quora的一篇文章,“Semantic Question Matching with Deep Learning”[2],Quora现在已经不仅仅是停留在文本相似度量上了,而是要把“意图”相似的问题都识别出来,比如,“What are the best ways to lose weight?”、“How can a person reduce weight?”、“What are effective weight loss plans?” 这三个问题,都是关于“如何有效减肥”的,Quora认为这三个属于意图重复的问题,应该合并。Quora公布了一个数据集[3],包含400,000个“问题对”,并且标注好了是否重复,如下图。



所有人都可以下载这份儿数据集,训练个模型试着解一解这个问题。感兴趣的同学建议仔细读一下这篇文章。另外,Quora的机器学习平台及内容质量团队的Leader,Nikhil Garg,在QCon2016上也给出了这个问题更详细的一些资料。


1、关于这个问题相关的最新研究进展。



2、Quora自己的方案划重点。



Quora很看重这个事情,认为重复问题会造成下面这些不好的影响,

  1. 回答问题的“效能”被分散了。本来可以在一处集中讨论,会被重复问题分散到各处。

  2. 用户不得不做付出额外的代价,搜索并查看大量的问答页面。

  3. 近似的问答内容在用户Feed里面反复出现,体验很差。

  4. 无法提供一个统一的“最佳答案”页面给用户。不光用户体验不好,对搜索引擎排名也非常不利。


Nikhil Garg的PPT[4]还有很多料。

  1. Duplicate Question Detection

  2. Answer Ranking

  3. Topic Expertise Detection

  4. Moderation


结合ResysChina之前的文章“Quora是如何做推荐的?”一起看,效果更佳! 


参考资料:

[1] https://www.buzzfeed.com/charliewarzel/meet-the-man-who-shapes-techs-narrative

[2] https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learning

[3] https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

[4] https://qconsf.com/sf2016/system/files/presentation-slides/scaling_quality_using_machine_learning_-_qcon_sf_2016.pdf


★ 猜你喜欢:「Amazon的推荐系统到底行不行?

最后再推荐一下ReadHub(readhub.me),清爽、简单、有效率,推荐大家都去试试看,点击阅读原文即可访问。




iOS读者赞赏


登录查看更多
1

相关内容

冯大辉,“被扒皮的水货CTO”事件当事人。其在丁香园任职期间,六年未写过代码、未规划过技术架构,而被网友戏称为水货CTO。2016年11月创建无码科技。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
用 TensorFlow hub 在 Keras 中做 ELMo 嵌入
AI研习社
5+阅读 · 2019年5月12日
基于小样本学习的意图识别冷启动
PaperWeekly
10+阅读 · 2019年5月12日
谷歌发布问答系统新语料,同时发布相关挑战赛
Google & CMU:62页PPT带你理解QANet(附下载链接)
机器学习算法与Python学习
13+阅读 · 2018年7月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
PornHub 用计算机视觉识别 A 片中的演员和内容
TechCrunch中国
4+阅读 · 2017年10月13日
干货 | 利用深度强化学习进行对话生成
黑龙江大学自然语言处理实验室
4+阅读 · 2017年8月30日
利用深度强化学习进行对话生成
PaperWeekly
9+阅读 · 2017年8月23日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
9+阅读 · 2018年3月10日
VIP会员
相关资讯
用 TensorFlow hub 在 Keras 中做 ELMo 嵌入
AI研习社
5+阅读 · 2019年5月12日
基于小样本学习的意图识别冷启动
PaperWeekly
10+阅读 · 2019年5月12日
谷歌发布问答系统新语料,同时发布相关挑战赛
Google & CMU:62页PPT带你理解QANet(附下载链接)
机器学习算法与Python学习
13+阅读 · 2018年7月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
PornHub 用计算机视觉识别 A 片中的演员和内容
TechCrunch中国
4+阅读 · 2017年10月13日
干货 | 利用深度强化学习进行对话生成
黑龙江大学自然语言处理实验室
4+阅读 · 2017年8月30日
利用深度强化学习进行对话生成
PaperWeekly
9+阅读 · 2017年8月23日
相关论文
Top
微信扫码咨询专知VIP会员