关于聊天机器人,这里有一份中文聊天语料库资源

2019 年 4 月 4 日 AINLP

昨天《夸夸聊天机器人升级:从随机到准个性化》推送后,又有一些同学关注夸夸聊天语料库,不过我还是建议大家自己先动手去爬:《为了夸夸聊天机器人,爬了一份夸夸语料库》,从前到后完整体验一下智能问答系统的实战过程。当然如果你还是希望在有语料的前提下来学习相关的自动问答知识,那么这里推荐一份github上的聊天机器人语料库资源:中文公开聊天语料库(chaotbot_corpus_Chinese),该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作,Github链接,点击文末阅读原文可直达:

https://github.com/codemayq/chaotbot_corpus_Chinese


以下来自该项目主页说明,非常感谢收集整理这份资源的同学。




该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

该库搜集了包含

  • chatterbot

  • 豆瓣多轮

  • PTT八卦语料

  • 青云语料

  • 电视剧对白语料

  • 贴吧论坛回帖语料

  • 微博语料

  • 小黄鸡语料

共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。

注意

以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

环境

python3

处理过程

将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。

数据来源及说明

语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词
chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。
douban(豆瓣多轮) 352W 来自北航和微软的paper, 开源项目 噪音相对较少,原本是多轮(平均7.6轮) Q:烟台 十一 哪 好玩 A:哪 都 好玩 · · · ·
ptt(PTT八卦语料) 40W 开源项目,台湾PTT论坛八卦版 繁体,语料较生活化,有噪音 Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧
qingyun(青云语料) 10W 某聊天机器人交流群 相对不错,生活化 Q:看来你很爱钱 A:噢是吗?那么你也差不多了
subtitle(电视剧对白语料) 274W 开源项目,来自爬取的电影和美剧的字幕 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了
tieba(贴吧论坛回帖语料) 232W 偶然找到的 多轮,有噪音 Q:前排,鲁迷们都起床了吧 A:标题说助攻,但是看了那球,真是活生生的讽刺了
weibo(微博语料) 443W 来自华为的paper 仍有一些噪音 Q:北京的小纯洁们,周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛,看着小纯洁撸么。
xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。
语料名称 语料原始URL(即出处,尊重原始版权)
chatterbot https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese
douban(豆瓣多轮) https://github.com/MarkWuNLP/MultiTurnResponseSelection
ptt(PTT八卦语料) https://github.com/zake7749/Gossiping-Chinese-Corpus
qingyun(青云语料)
subtitle(电视剧对白语料) https://github.com/fateleak/dgk_lost_conv
tieba(贴吧论坛回帖语料) https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si
weibo(微博语料) 61.93.89.94/Noah_NRM_Data/
xiaohuangji(小黄鸡语料) https://github.com/candlewill/Dialog_Corpus

使用方法

下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...

执行命令即可

python main.py

或者

python3 main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

query \t answer

结果的使用

这个就根据每个人不同的情况自主使用即可

个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 《从产品完整性的角度浅谈chatbot》

https://zhuanlan.zhihu.com/p/34927757

文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。

  1. chatbot自身人格的设置

  2. 产品上线需要考虑的敏感词处理

  3. 文本检索模型的使用

  4. 文本生成模型的使用

  5. 回答打分机制

  6. 万能回答的使用策略

  7. 多媒体消息的处理

  8. 产品模型部署的问题

版权说明

本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。

登录查看更多
67

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
69+阅读 · 2019年11月25日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
【推荐】中文处理(BiLSTM分词)工具包FoolNLTK
机器学习研究会
6+阅读 · 2017年12月27日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
【推荐】中文处理(BiLSTM分词)工具包FoolNLTK
机器学习研究会
6+阅读 · 2017年12月27日
相关论文
Arxiv
3+阅读 · 2019年3月1日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员