YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

2017 年 6 月 15 日 中国科学院网络数据重点实验室

    在刚刚落下帷幕的 Kaggle:Quora Question Pairs[1]全球文本匹配算法竞赛中,中科院网络数据重点实验室庞亮、范意兴、侯建鹏、岳新玉、牛国成同学组成的YesOfCourse团队荣获总成绩榜第4名的成绩,同时在华人参赛团队中位列第1名。

 本次竞赛由全球最大的在线知识平台Quora主办,Kaggle竞赛平台承办。Quora为本次比赛提供了百万级别的带有标签信息的文本匹配数据集,以期望参赛选手能够准确的判断一组问题是否具有相同的语义,从而帮助Quora用户更有效地从海量数据中找到所需要的问题。该项赛事吸引了来自全球各地相关领域研究者组成的数千只队伍,其中包括MicrosoftIBM等顶级IT公司以及MITUCLUMass、清华等知名高校和研究机构。

    YesOfCourse团队将问题转换为预处理、特征工程、单模型构建、多模型整合以及后处理等五个主要步骤并分别进行优化,如下图所示。在预处理阶段,将原始文本通过词干还原、词性抽取、停用词去除等多种文本处理方式生成多通道数据以从多角度进行特征提取和模型构建。在特征构建阶段,除了构建基本的统计特征,自然语言句法语法特征,分布式文本表达特征以外,还利用问题共现关系构建了关系图网络,并通过图连接,图节点等信息抽取得到相应特征,有效的利用了其他维度的信息来帮助完成自然语言处理的问题。单模型主要包含两个方面:一方面利用深度学习模型,其中主要包括实验室自主研发的深度文本匹配模型(相关模型由TextNet[2]实现):MatchPyramid[3]MV-LSTM[4] MatchSRNN[5]等;另一方面利用传统的机器学习模型如GBDT,分解机模型,线性模型等。最终,通过我们提出的Deep Fusion方法,将大量不同类别的模型结果进行整合,利用多模型之间的差异性和互补性进一步提升结果。除此之外,团队还开发了FeatWheel轻量级机器学习流程框架,用以快速、有效地完成在中小数据级上的实验,不仅方便管理各种不同版本之间的迭代,同时还有有效的简化了数据集划分,特征整合等多个关键步骤。基于以上工作,YesOfCourse团队将结果(交叉熵误差)0.3提升至0.11768,最终取得了全球第4名的成绩。

    最终的解决方案[6]会整理发布在Github开源社区中,其中深度文本匹配模型将开源在实验室自主研发的TextNet[2]深度学习框架下。

Refenrence:

[1] https://www.kaggle.com/c/quora-question-pairs

[2] https://github.com/pl8787/textnet-release

[3] Pang L, Lan Y, Guo J, etal. Text Matching as Image Recognition[C]. Thirtieth AAAI Conference onArtificial Intelligence. 2016.

[4] Wan S, Lan Y, Guo J, etal. A deep architecture for semantic matching with multiple positional sentencerepresentations[C]. Thirtieth AAAI Conference on Artificial Intelligence. 2016.

[5] Wan S, Lan Y, Xu J, etal. Match-SRNN: Modeling the Recursive Matching Structure with Spatial RNN[C]. Twenty-FifthInternational Joint Conference on Artificial Intelligence (IJCAI-16). 2016.

 [6]https://github.com/HouJP/kaggle-quora-question-pairs


登录查看更多
10

相关内容

社会化问答网站,结合了 Twitter 的 follow 关系、维基式协作编辑、 Digg 的用户投票等模式,是将现有 Web 2.0 产品的分散功能进行重新组合重装的创新模式
【天津大学】知识图谱划分算法研究综述
专知会员服务
108+阅读 · 2020年4月27日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
字节跳动 2019 ICME 双赛道冠军团队方案分享
PaperWeekly
50+阅读 · 2019年8月12日
深度文本匹配开源工具(MatchZoo)
中国科学院网络数据重点实验室
7+阅读 · 2017年12月5日
已删除
将门创投
7+阅读 · 2017年7月11日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2018年5月21日
VIP会员
相关VIP内容
【天津大学】知识图谱划分算法研究综述
专知会员服务
108+阅读 · 2020年4月27日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
相关资讯
Top
微信扫码咨询专知VIP会员