关于聊天机器人，这里有一份中文聊天语料库资源

2019 年 4 月 4 日 AINLP

昨天《夸夸聊天机器人升级：从随机到准个性化》推送后，又有一些同学关注夸夸聊天语料库，不过我还是建议大家自己先动手去爬：《为了夸夸聊天机器人，爬了一份夸夸语料库》，从前到后完整体验一下智能问答系统的实战过程。当然如果你还是希望在有语料的前提下来学习相关的自动问答知识，那么这里推荐一份github上的聊天机器人语料库资源：中文公开聊天语料库（chaotbot_corpus_Chinese），该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作，Github链接，点击文末阅读原文可直达：

https://github.com/codemayq/chaotbot_corpus_Chinese

以下来自该项目主页说明，非常感谢收集整理这份资源的同学。

该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

该库搜集了包含

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

共8个公开闲聊常用语料和短信，白鹭时代问答等语料。

并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。

使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。

注意

以下所有语料都已经统一下载好，存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

环境

python3

处理过程

将各个来源的语料按照其原格式进行提取，提取后进行繁体字转换，然后统一变成一轮一轮的对话。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	语料样例	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	Q:你会开心的 A:幸福不是真正的可预测的情绪。	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	Q:烟台十一哪好玩 A:哪都好玩 · · · ·	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	Q:看来你很爱钱 A:噢是吗？那么你也差不多了	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	Q:前排，鲁迷们都起床了吧 A:标题说助攻，但是看了那球，真是活生生的讽刺了	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	Q:北京的小纯洁们，周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛，看着小纯洁撸么。	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	Q:你谈过恋爱么 A:谈过，哎，别提了，伤心..。	否

语料名称	语料原始URL（即出处，尊重原始版权）
chatterbot	https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese
douban（豆瓣多轮）	https://github.com/MarkWuNLP/MultiTurnResponseSelection
ptt（PTT八卦语料）	https://github.com/zake7749/Gossiping-Chinese-Corpus
qingyun（青云语料）	无
subtitle（电视剧对白语料）	https://github.com/fateleak/dgk_lost_conv
tieba（贴吧论坛回帖语料）	https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si
weibo（微博语料）	61.93.89.94/Noah_NRM_Data/
xiaohuangji（小黄鸡语料）	https://github.com/candlewill/Dialog_Corpus

使用方法

下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下目录结构为

raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...

执行命令即可

python main.py

或者

python3 main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件，都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式，每行是一个样本，先是query，再是answer

query \t answer

结果的使用

这个就根据每个人不同的情况自主使用即可

个人对于聊天机器人方向实践也不是很多，以下一篇之前写的知乎专栏供参考《从产品完整性的角度浅谈chatbot》

https://zhuanlan.zhihu.com/p/34927757

文章粗略讲解了如下一些方面，介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。

chatbot自身人格的设置
产品上线需要考虑的敏感词处理
文本检索模型的使用
文本生成模型的使用
回答打分机制
万能回答的使用策略
多媒体消息的处理
产品模型部署的问题

版权说明

本项目为非商业项目，为纯搜集和汇总资料，如有侵权，请在issue下留言。

登录查看更多

相关内容

语料库

关注 17

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【DeepMind推荐】居家学习的人工智能干货资源大全集

专知会员服务

112+阅读 · 2020年6月27日

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

专知会员服务

46+阅读 · 2020年4月8日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【EMNLP2019教程】端到端学习对话人工智能，附237页PPT下载

专知会员服务

71+阅读 · 2019年11月25日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

专知会员服务

41+阅读 · 2019年11月12日

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

为了夸夸聊天机器人，爬了一份夸夸语料库

AINLP

21+阅读 · 2019年3月19日

千万级中文公开免费聊天语料数据分享

深度学习与NLP

17+阅读 · 2019年3月17日

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

优质中文NLP资源集合，做项目一定用得到！

数据派THU

18+阅读 · 2019年3月3日

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心

7+阅读 · 2019年2月15日

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

机器学习研究会

6+阅读 · 2017年12月27日

Dynamic Transfer Learning for Named Entity Recognition

Arxiv

5+阅读 · 2019年5月1日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

Multi-Task Deep Neural Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年1月31日

Jointly Learning to Label Sentences and Tokens

Arxiv

3+阅读 · 2018年11月14日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

Learning to Speed Up Query Planning in Graph Databases

Arxiv

6+阅读 · 2018年1月21日

Adversarial Learning for Chinese NER from Crowd Annotations

Arxiv

15+阅读 · 2018年1月16日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

VIP会员