本库是 NLP 中使用的包含了文本数据的免费/公共域数据集,这些数据集已经按字母顺序排好。这里的大多数数据只是原始的非结构化文本数据,如果你需要寻找注释的语料库或 Treebanks,请参阅底部的源代码。
Apache Software Foundation Public Mail Archives:截至 2011 年 7 月 11 日的所有公开可用的 Apache Software Foundation 邮件存档(200 GB) (200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
Blog Authorship Corpus:2004 年 8 月从 blogger.com 收集的 19,320 位博主收集的帖子组成。共 681,288 个帖子和超过 1.4 亿字。 (298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
Amazon Fine Food Reviews [Kaggle]:亚马逊用户在 2012 年 10 月前留下的 568,454 条食评(240 MB)。
https://www.kaggle.com/snap/amazon-fine-food-reviews
Amazon Reviews:斯坦福收集的 3500 万条亚马逊评论(11 GB)。
https://snap.stanford.edu/data/web-Amazon.html
ArXiv:所有关于归档的论文全文(270 GB)+ 源文件(190 GB)。
http://arxiv.org/help/bulk_data_s3
ASAP Automated Essay Scoring [Kaggle]:本次比赛有八篇文集,每一组文章都是由一个提示生成的。选择的论文回答的平均长度从 150 到 550 个字不等。一些论文依赖于源信息,而其他论文则不是。所有回复都是由 7 年级到 10 年级的学生撰写的。所有的论文都是手工评分,并进行了双重评分。 (100 MB)
https://www.kaggle.com/c/asap-aes/data
ASAP Short Answer Scoring [Kaggle]:每个数据集都是由单个提示生成的,选定的回复每个回复的平均长度为 50 个字。一些论文依赖于源信息,而其他论文则不是。所有回复均由 10 年纪的学生主要在1写成。所有回复均为手动分级并进行双重评分 (35 MB)。
https://www.kaggle.com/c/asap-sas/data
Classification of political social media:来自政客的社交媒体消息内容 (4 MB)。
https://www.crowdflower.com/data-for-everyone/
CLiPS Stylometry Investigation (CSI) Corpus:每年扩展两种类型的学生文章语料库:散文和评论。这个语料库的目的主要在于测图研究,但也可以作其他用途。
http://www.clips.uantwerpen.be/datasets/csi-corpus
ClueWeb09 FACC:带有 Freebase 注释的 ClueWeb09 (72 GB)
http://lemurproject.org/clueweb09/FACC1/
ClueWeb11 FACC:带有 Freebase 注释的 ClueWeb11 (92 GB)
http://lemurproject.org/clueweb12/FACC1/
Common Crawl Corpus:由超过 50 亿个网页组成的爬虫数据 (541 TB)。
http://aws.amazon.com/de/datasets/common-crawl-corpus/
Cornell Movie Dialog Corpus:大量电影对白集合,来自 10,292 对电影角色间的 220,579 条对话,囊括 617 部电影(9.5 MB)。
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
Crosswikis:英语短语相关维基百科文章数据库(11 GB)。
http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
更多 NLP 数据集请访问以下 Github 页面:
https://github.com/niderhoff/nlp-datasets/blob/master/README.md
4 月 AI 求职季
8 大明星企业
10 场分享盛宴
20 小时独门秘籍
4.10-4.19,我们准时相约!
新人福利
关注 AI 研习社(okweiwu),回复 1 领取
【超过 1000G 神经网络 / AI / 大数据资料】
新加坡国立大学霍华德:NLP 都有哪些有意思的事儿?
▼▼▼