千万级中文公开免费聊天语料数据分享

会员服务 ·

千万级中文公开免费聊天语料数据分享

2019 年 3 月 17 日 深度学习与NLP

分享一个包含千万级聊天语料的资源。地址：https://github.com/codemayq/chaotbot_corpus_Chinese

该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

该库搜集了包含

· chatterbot

· 豆瓣多轮

· PTT八卦语料

· 青云语料

· 电视剧对白语料

· 贴吧论坛回帖语料

· 微博语料

· 小黄鸡语料

共8个公开闲聊常用语料和短信，白鹭时代问答等语料。

并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。

使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。

注意

以下所有语料都已经统一下载好，存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里

环境

python3

处理过程

将各个来源的语料按照其原格式进行提取，提取后进行繁体字转换，然后统一变成一轮一轮的对话。

数据来源及说明

使用方法

下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下目录结构为

raw_chat_corpus

-- language

-- process_pipelines

-- raw_chat_corpus

---- chatterbot-1k

---- douban-multiturn-100w

---- ....

-- main.py

-- ...

执行命令即可

python main.py

或者

python3 main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件，都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式，每行是一个样本，先是query，再是answer

query \t answer

结果的使用

这个就根据每个人不同的情况自主使用即可。

往期精品内容推荐

免费教材分享-《理论计算机科学导论》-Boaz Barak

撕掉单词书，每天花10分钟做这件事，英语水平暴涨！

Tensorflow官方视频课程-深度学习工具 TensorFlow入门

深度学习认识论-Yann LeCun

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

深度学习与计算机视觉任务应用综述

BatchNorm有效性原理解析

精品教材-中文版《Tensorflow内核剖析》分享

DeepMind-1123-深度学习与强化学习高阶课程分享（带中英文字幕）

UC Berkeley-18-最新深度强化学习课程（中英字幕）

吴恩达-中文完整版《Mechine Learning Yearning》分享

2018-CUDA编程精品教材分享《基于GPU-多核-集群等并行化编程》

构建深度神经网络的一些实战建议-绝对的纯干货

扫描下方二维码可以订阅哦！

DeepLearning_NLP

深度学习与NLP

商务合作请联系微信号：lqfarmerlq

登录查看更多

相关内容

ESE

关注 0

经验软件工程为应用软件工程研究提供了一个具有很强的经验成分的论坛，并为发表与研究者和实践者相关的经验结果提供了一个场所。这里提出的实证研究通常涉及数据和经验的收集和分析，这些数据和经验可用于描述、评估和揭示软件开发可交付成果、实践和技术之间的关系。随着时间的推移，预计这些经验结果将形成一个知识体系，从而形成广为接受和形成良好的理论。《华尔街日报》还提供了行业经验报告，详细介绍了软件技术（过程、方法或工具）的应用及其在工业环境中的有效性。实证软件工程促进了行业相关研究的出版，解决了研究与实践之间的巨大差距。官网地址：http://dblp.uni-trier.de/db/journals/ese/

【Facebook AI】低资源机器翻译，74页ppt

专知会员服务

30+阅读 · 2020年4月8日

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

专知会员服务

46+阅读 · 2020年4月8日

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日