来源:专知
本文约1000字,建议阅读5分钟。
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。
语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。
下载语料
网盘链接:
https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
执行命令即可
python main.py
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
query \t answer
Github地址:
https://github.com/codemayq
编辑:王菁
校对:林亦霖