会员服务 ·

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

2019 年 2 月 14 日 量子位

乾明发自凹非寺
量子位报道 | 公众号 QbitAI

中文信息很多，但要找到合适的中文语料很难。

有人看不下去了，在GitHub上开了一个项目，专门贡献中文语料资源。

他说，要为解决中文语料难找贡献一份力量。

什么样的资源？

目前，这个项目中一共有3种json版资源：

包含104万个词条的维基百科资源，包含250万篇新闻的新闻语料，以及包含150万个问答的百科类问答资源。

一般来说，这些资源可以作为通用的中文语料，用于预训练或者构建词向量等等。

不同的资源，用处也有不同，比如维基百科和问答百科，可以用来构建知识问答等等。

新闻语料资源，囊括了标题、关键词、描述和正文，也可以用来训练标题生成模型、关键词生成模型等等。

此外，在对数据集划分过的新闻语料和百科类问答资源中，只提供训练集和验证集，不提供测试集数据的下载。

是因为——

希望更多人参与

资源的贡献者表示，希望大家报告模型在验证集上的准确率，并提供模型信息、方法描述、运行方式，以及可运行的源代码（可选）。

这些信息都有的话，资源贡献者会在测试集上测试模型，并给出准确率。

他表示，项目中的语料库将会不断扩充，号召大家多多贡献资源，并给出了相应的目标：

到2019年5月1日，放出10个百万级中文语料&3个千万级中文语料。

到2019年12月31日，放出30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料。

从目前已经有的资源来看，一个语料可以是一个问答，也可以是一个词条等等。

这份资源的贡献者，名为徐亮，杭州实在智能的算法专家，主要关注文本分类、意图识别、问答和面向任务的对话。

如果你有兴趣，请收好资源传送门：

https://github.com/brightmart/nlp_chinese_corpus

此外，量子位之前也介绍过几份中文NLP资源，也一并附于此：

有人收罗了40个中文NLP词库，放到了GitHub上

腾讯AI Lab开源800万中文词的NLP数据集

非正式汉语数据集资源上线，帮你训练网络语言处理

— 完 —

加入社群

量子位现开放「AI+行业」社群，面向AI行业相关从业者，技术、产品等人员，根据所在行业可选择相应行业社群，在量子位公众号（QbitAI）对话界面回复关键词“行业群”，获取入群方式。行业群会有审核，敬请谅解。

此外，量子位AI社群正在招募，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式。

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多

相关内容

语料库

关注 0

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

98+阅读 · 2019年12月23日

自动机器学习：最新进展综述

专知会员服务

124+阅读 · 2019年10月13日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心

7+阅读 · 2019年2月15日

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源 | 中文NLP资源库

机器学习算法与Python学习

21+阅读 · 2018年11月22日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

中国人工智能学会

9+阅读 · 2018年11月16日

Towards Making the Most of BERT in Neural Machine Translation

Arxiv

5+阅读 · 2020年3月26日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

VIP会员

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI

什么样的资源？

希望更多人参与

相关内容

乾明发自凹非寺
量子位报道 | 公众号 QbitAI