AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

2018 年 12 月 3 日 AINLP

AI Challenger 2018 已近尾声，各赛道top选手已经结束了代码核验，正在准备12月18、19日 AI Challenger 决赛答辩材料的路上。在本年度 AI Challenger 即将尘埃落定之时，这里整理一批目前网上可见的文本挖掘相关赛道的解决方案和代码，欢迎补充，同时感谢github，感谢各位开源的同学。

细粒度用户评论情感分析

在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值，并且在互联网行业有极其广泛的应用，主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集，共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法，对用户评论进行情感挖掘，组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率，评估所提交的预测算法。

貌似是最火爆的一个赛道，Testa 提交队伍有468支，详细介绍请参考该赛道主页：

https://challenger.ai/competition/fsauor2018

相关代码或解决方案：

1. 官方baseline: 基于pytorch实现论文《Multiway Attention Networks for Modeling Sentence Pairs》
opinion_questions_machine_reading_comprehension2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/opinion_questions_machine_reading_comprehension2018_baseline

2. 将baseline迁移到了python 3.6.6，修正了错误，改变参数最高accuracy为 0.70370：

https://github.com/dreamnotover/oqmrc2018

3. 第18名解决方案：

https://github.com/PanXiebit/aic_rc

4. Testa 得分 73.2:

https://github.com/antdlx/aic18_rc

5. ai challenger 2018 's final code:

https://github.com/NoneWait/ai_challenge_2018_mrc

6. 基于capsule的观点型阅读理解模型:

https://github.com/freefuiiismyname/capsule-mrc

7. AI Challenger 2018 阅读理解赛道代码分享：https://github.com/renjunxiang/oqmrc_2018

8. 奇点机智分享的可以在Testa上超越第一的BERT方案：

BERT fine-tune 终极实践教程

9. RCZoo: 从Testa棒的第22名到Testb棒的第2名，作者用“RCZoo@https://github.com/lixinsu/RCZoo” 作为战队名打榜，不过RCZoo更像是一个通用的深度学习阅读理解、问答系统解决方案和工具箱，至于在该项赛事中的细节需要作者来揭晓：
Question answering, reading comprehension toolkit：

https://github.com/lixinsu/RCZoo

英中文本机器翻译

英中机器文本翻译作为此次比赛的任务之一，目标是评测各个团队机器翻译的能力。本次机器翻译语言方向为英文到中文。测试文本为口语领域数据。参赛队伍需要根据评测方提供的数据训练机器翻译系统，可以自由的选择机器翻译技术。例如，基于规则的翻译技术、统计机器翻译及神经网络机器翻译等。本次竞赛将利用机器翻译的客观考核指标（BLEU、NIST score、TER）进行评分，BLEU得分会作为主要的机器评价指标。组委会将通过客观指标，并结合答辩表现，综合评估参赛者的算法模型。

更多请参考该赛道主页：

https://challenger.ai/competition/ect2018