千万级中文公开免费聊天语料数据分享

2019 年 3 月 17 日 深度学习与NLP

    分享一个包含千万级聊天语料的资源。地址:https://github.com/codemayq/chaotbot_corpus_Chinese


    该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

    该库搜集了包含

        · chatterbot

        · 豆瓣多轮

        · PTT八卦语料

        · 青云语料

        · 电视剧对白语料

        · 贴吧论坛回帖语料

        · 微博语料

        · 小黄鸡语料

    共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

    并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。

    使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。

     

    注意

    以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。给出的语料原链接是为了说明该语料的原始出处是在哪里


    环境

    python3


    处理过程

    将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。


    数据来源及说明


    使用方法

    下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex


    将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

        raw_chat_corpus

        -- language

        -- process_pipelines

        -- raw_chat_corpus

        ---- chatterbot-1k

        ---- douban-multiturn-100w

        ---- ....

        -- main.py

        -- ...


    执行命令即可

        python main.py

    或者

        python3 main.py


    生成结果

    每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

    生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

        query \t answer


    结果的使用

    这个就根据每个人不同的情况自主使用即可。

往期精品内容推荐

免费教材分享-《理论计算机科学导论》-Boaz Barak

撕掉单词书,每天花10分钟做这件事,英语水平暴涨!

Tensorflow官方视频课程-深度学习工具 TensorFlow入门

深度学习认识论-Yann LeCun

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

深度学习与计算机视觉任务应用综述

BatchNorm有效性原理解析

精品教材-中文版《Tensorflow内核剖析》分享

DeepMind-1123-深度学习与强化学习高阶课程分享(带中英文字幕)

UC Berkeley-18-最新深度强化学习课程(中英字幕)

吴恩达-中文完整版《Mechine Learning Yearning》分享

2018-CUDA编程精品教材分享《基于GPU-多核-集群等并行化编程》

构建深度神经网络的一些实战建议-绝对的纯干货

扫描下方二维码可以订阅哦!

DeepLearning_NLP

深度学习与NLP

       商务合作请联系微信号:lqfarmerlq

登录查看更多
17

相关内容

经验软件工程为应用软件工程研究提供了一个具有很强的经验成分的论坛,并为发表与研究者和实践者相关的经验结果提供了一个场所。这里提出的实证研究通常涉及数据和经验的收集和分析,这些数据和经验可用于描述、评估和揭示软件开发可交付成果、实践和技术之间的关系。随着时间的推移,预计这些经验结果将形成一个知识体系,从而形成广为接受和形成良好的理论。《华尔街日报》还提供了行业经验报告,详细介绍了软件技术(过程、方法或工具)的应用及其在工业环境中的有效性。实证软件工程促进了行业相关研究的出版,解决了研究与实践之间的巨大差距。官网地址:http://dblp.uni-trier.de/db/journals/ese/
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
谷歌机器学习速成课程中文版pdf
专知会员服务
142+阅读 · 2019年12月4日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
67+阅读 · 2019年11月25日
【电子书】让 PM 全面理解深度学习 65页PDF免费下载
专知会员服务
16+阅读 · 2019年10月30日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
90+阅读 · 2019年10月16日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
18+阅读 · 2019年8月20日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
免费自然语言处理(NLP)课程及教材分享
深度学习与NLP
29+阅读 · 2019年1月18日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
谷歌机器学习速成课程中文版pdf
专知会员服务
142+阅读 · 2019年12月4日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
67+阅读 · 2019年11月25日
【电子书】让 PM 全面理解深度学习 65页PDF免费下载
专知会员服务
16+阅读 · 2019年10月30日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
90+阅读 · 2019年10月16日
相关资讯
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
18+阅读 · 2019年8月20日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
66+阅读 · 2019年5月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
免费自然语言处理(NLP)课程及教材分享
深度学习与NLP
29+阅读 · 2019年1月18日
Top
微信扫码咨询专知VIP会员