AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

2018 年 12 月 3 日 AINLP

AI Challenger 2018 已近尾声,各赛道top选手已经结束了代码核验,正在准备12月18、19日 AI Challenger 决赛答辩材料的路上。在本年度 AI Challenger 即将尘埃落定之时,这里整理一批目前网上可见的文本挖掘相关赛道的解决方案和代码,欢迎补充,同时感谢github,感谢各位开源的同学。

细粒度用户评论情感分析

在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集,共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法,对用户评论进行情感挖掘,组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率,评估所提交的预测算法。

貌似是最火爆的一个赛道,Testa 提交队伍有468支,详细介绍请参考该赛道主页:

https://challenger.ai/competition/fsauor2018

相关代码或解决方案:

1. 官方baseline,基于SVM: sentiment_analysis2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/sentiment_analysis2018_baseline

2. 基于fastText的baseline: AI Challenger 2018 Sentiment Analysis Baseline with fastText
2.1 https://github.com/panyang/fastText-for-AI-Challenger-Sentiment-Analysis
2.2 文章:AI Challenger 2018 细粒度用户评论情感分析 fastText Baseline

3. 基于 SVM 的细粒度情感分析: 

https://github.com/scruel/sentiment_analysis

4. 第16名解决方案: 

https://github.com/xueyouluo/fsauor2018

5. 第17名解决方案:https://github.com/BigHeartC/Al_challenger_2018_sentiment_analysis

6. 基于Bert的尝试:

https://github.com/brightmart/sentiment_analysis_fine_grain

7. ai challenger Competitions 1: 

Fine-grained Sentiment Analysis of User Reviews:
https://github.com/ShawnXiha/Fine-grained-Sentiment-Analysis-of-User-Reviews

8. 细粒度用户评论情感分析 (0.70201):

https://github.com/pengshuang/AI-Comp
8.1 相关文章1:https://zhuanlan.zhihu.com/p/47207009
8.2 相关文章2:https://zhuanlan.zhihu.com/p/47278559

9. AI Challenger 细粒度用户评论情感分析线上0.62: 

https://zhuanlan.zhihu.com/p/44857751

观点型问题阅读理解

机器阅读理解涉及信息检索、文本匹配、语言理解、语义推理等不同层次的技术,对于复杂问题的处理甚至需要结合世界知识与常识知识,极具挑战。为了进一步推动机器阅读理解领域的技术发展,为研究者提供学术交流和模型评测的基准,本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题开展评测。本次竞赛将利用准确率进行评分,作为主要评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。

更多信息请参考官方主页:

https://challenger.ai/competition/oqmrc2018

相关代码或解决方案:

1. 官方baseline: 基于pytorch实现论文《Multiway Attention Networks for Modeling Sentence Pairs》
opinion_questions_machine_reading_comprehension2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/opinion_questions_machine_reading_comprehension2018_baseline

2. 将baseline迁移到了python 3.6.6,修正了错误,改变参数最高accuracy为 0.70370:

https://github.com/dreamnotover/oqmrc2018

3. 第18名解决方案:

https://github.com/PanXiebit/aic_rc

4. Testa 得分 73.2: 

https://github.com/antdlx/aic18_rc

5. ai challenger 2018 's final code: 

https://github.com/NoneWait/ai_challenge_2018_mrc

6. 基于capsule的观点型阅读理解模型: 

https://github.com/freefuiiismyname/capsule-mrc

7. AI Challenger 2018 阅读理解赛道代码分享:https://github.com/renjunxiang/oqmrc_2018

8. 奇点机智分享的可以在Testa上超越第一的BERT方案:

BERT fine-tune 终极实践教程

9. RCZoo: 从Testa棒的第22名到Testb棒的第2名,作者用“RCZoo@https://github.com/lixinsu/RCZoo” 作为战队名打榜,不过RCZoo更像是一个通用的深度学习阅读理解、问答系统解决方案和工具箱,至于在该项赛事中的细节需要作者来揭晓:
Question answering, reading comprehension toolkit:

https://github.com/lixinsu/RCZoo

英中文本机器翻译

英中机器文本翻译作为此次比赛的任务之一,目标是评测各个团队机器翻译的能力。本次机器翻译语言方向为英文到中文。测试文本为口语领域数据。参赛队伍需要根据评测方提供的数据训练机器翻译系统,可以自由的选择机器翻译技术。例如,基于规则的翻译技术、统计机器翻译及神经网络机器翻译等。本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。

更多请参考该赛道主页:

https://challenger.ai/competition/ect2018

相关代码或解决方案:

1. 官方baseline: 基于tensor2tensor和transformer的解决方案,估计也是本赛道大多数选手的方案,不同之处在于细节和参数的处理:
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/english_chinese_machine_translation_baseline

2. TestB第10名同学的分享:

AI Challenger_2018英中文本机器翻译_参赛小结
https://zhuanlan.zhihu.com/p/50153808

3. Document-Transformer
这次英中机器翻译比赛提供了上下文(Document)语料,我一直没有找到合适的解决方案,直到看到了清华、搜狗和苏州大学近期刚刚出品的这个论文和工具包,也许这才是本次比赛的一个解决秘钥,感兴趣的同学可以一试:

代码:https://github.com/Glaceon31/Document-Transformer
论文:Improving the Transformer Translation Model with Document-Level Context

持续更新,欢迎大家补充,也欢迎关注我们的微信公众号:AINLP


登录查看更多
22

相关内容

狭义的情感分析(sentiment analysis)是指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘。广义的情感分析则包括对图像视频、语音、文本等多模态信息的情感计算。简单地讲,情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
109+阅读 · 2020年3月12日
《深度学习》圣经花书的数学推导、原理与Python代码实现
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
【资源】kaggle数据科学竞赛方案集锦
专知
27+阅读 · 2019年9月4日
干货 | 各大数据竞赛 Top 解决方案汇总
AI科技评论
12+阅读 · 2018年11月12日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
3+阅读 · 2018年3月27日
VIP会员
Top
微信扫码咨询专知VIP会员