中文公开聊天语料库

2019 年 3 月 9 日 专知

【导读】该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。

语料内容

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。

使用方法

下载语料

 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...

执行命令即可

python main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

query \t answer

Github地址:

https://github.com/codemayq

-END-

专 · 知

专知《深度学习:算法到实战》课程全部完成!500+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询《深度学习:算法到实战》课程,咨询技术商务合作~

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
11

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
214+阅读 · 2020年4月26日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
30+阅读 · 2020年4月8日
【哈工大】基于抽取的高考作文生成
专知会员服务
37+阅读 · 2020年3月10日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
70+阅读 · 2019年11月25日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
34+阅读 · 2019年9月20日
【资源】NLP多标签文本分类代码实现工具包
专知
40+阅读 · 2019年11月20日
史上最大规模1.4亿中文知识图谱开源下载
专知
39+阅读 · 2019年10月14日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2018年11月1日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
214+阅读 · 2020年4月26日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
30+阅读 · 2020年4月8日
【哈工大】基于抽取的高考作文生成
专知会员服务
37+阅读 · 2020年3月10日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
70+阅读 · 2019年11月25日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
34+阅读 · 2019年9月20日
相关论文
Arxiv
6+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2018年11月1日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员