自然语言处理（NLP）数据集整理

会员服务 ·

自然语言处理（NLP）数据集整理

2018 年 4 月 8 日 论智 Bot

来源：GitHub

编译：Bot

编者按：近日，国外几名网友整理了一份自然语言处理的免费/公开数据集（包含文本数据）清单，为防止大家错过这个消息，论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文，或去github点个星星以示感谢。

Github：github.com/niderhoff/nlp-datasets/blob/master/README.md

注：原文中有一些疑似失效/错误的链接，本文已做删除处理。如发现链接错误，欢迎留言指出。

数据集

Apache Software Foundation公共邮件存档：截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档（200 GB）

https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

博客作者身份语料库：由2004年8月从blogger.com收集的19,320位博主的文章组成，共计681,288篇，字数超过1.4亿——平均每人35篇、7250字（298 MB）

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

亚马逊食品评论[Kaggle] ：数据跨越10年以上，包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论（240 MB）。附：斯坦福大学论文

https://www.kaggle.com/snap/amazon-fine-food-reviews

亚马逊评论：斯坦福收集了3500万条亚马逊评论，跨度18年（11 GB）

https://snap.stanford.edu/data/web-Amazon.html

arXiv：所有归档的论文全文（270 GB）+源文件（190 GB）

https://arxiv.org/help/bulk_data_s3 "arXiv

ASAP自动短文评分[Kaggle]：共八个作文集，每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息，另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的，并经相关人员手工评分，有些还进行了双重评分（100 MB）

https://www.kaggle.com/c/asap-aes/data

ASAP自动简答题评分：共十个数据集，每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息，另一些则是自由发挥。所有答案都是由10年级的学生撰写的，并经相关人员手动分级并进行双重评分（35 MB）

https://www.kaggle.com/c/asap-sas/data

美国政客的社交媒体消息分类：收集了来自美国参议员和其他美国政客的数千条社交媒体消息，可按内容分类为目标群众（国家或选民）、政治主张（中立/两党或偏见/党派）和实际内容（如攻击政敌等）（4 MB）注：该网站还有其他大量CV、NLP和语音方面的小型数据集

https://www.figure-eight.com/data-for-everyone/

CSI语料库：荷兰语，该语料库包含两种类型的学生文本：作文和评论。涉及作者（性别、年龄、性取向、来源地区、性格概况）和文档（时间、流派、真实性、情绪、等级）等大量元数据。由安特卫普大学CLiPS研究中心提供，主要用于计量文体学分析。

https://www.clips.uantwerpen.be/datasets/csi-corpus

ClueWeb09 FACC：带有Freebase注释的ClueWeb09和ClueWeb12语料库（72 GB）

http://lemurproject.org/clueweb09/FACC1/

ClueWeb11 FACC：带有Freebase标识符注释的ClueWeb11（92 GB）

http://lemurproject.org/clueweb12/FACC1/

AWS爬虫数据：收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始，所有爬虫只持续一个月，数据以WARC文件格式存储。从2012年开始，抓取的数据还包含元数据（WAT）和文本数据（WET）提取，大大简化了数据处理（541 TB）

https://aws.amazon.com/cn/public-datasets/common-crawl/

康奈尔电影对话语料库（Cornell Movie Dialog Corpus）：包含从原始电影脚本中提取的虚构对话集：10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符，共304,713个句子。元数据极其丰富，包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

crosswikis：英语短语相关的维基百科文章数据库、论文（11 GB）

https://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

DBpedia：包含从维基百科中提取出的结构化信息，包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息，其中2.57亿条来自维基百科英文版，7.66亿条来自其他语言版本（17 GB）

https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

Death Row：包含美国德州自1984年以来每个执行死刑罪犯的遗言（HTML表格）

http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

Del.icio.us：包含delicious.com上的125万个书签（170 MB）

https://arvindn.livejournal.com/116137.html

社交媒体上有关灾难的消息：包含10,000条和灾难事故相关的带注释推特（2 MB）

https://www.figure-eight.com/data-for-everyone/

经济新闻报道的基调和相关性：包含从1951年到2014年的经济新闻，可根据新闻报道判断该文章是否与美国经济情况相关，如果是，报道的基调是什么（12 MB）

https://www.figure-eight.com/data-for-everyone

Enron电子邮件集：包含1,227,255封电子邮件，其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML（210 GB）

https://aws.amazon.com/de/datasets/enron-email-data/

Event Registry：可以实时访问全球100,000个新闻源的新闻文章，有API（免费查询工具）

http://eventregistry.org/

垃圾邮件/标题党新闻数据集[Kaggle]：新闻网站The Examiner上的新闻汇编，包含超过6年的21000多位作者撰写的300万篇文章的标题（200 MB）

https://www.kaggle.com/therohk/examine-the-examiner

联邦采购数据中心的联邦合同：来自管理联邦采购数据系统（FPDS-NG）的联邦采购数据中心（FPDC）的转储，真实性和准确性已受承诺（180 GB）

https://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

Flickr Personal Taxonomies：社交媒体上用户按个人喜好分类内容的树形数据集，包含7,121位Flickr的树（40 MB）

https://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

Freebase数据转储：是一个开放的世界信息数据库，包含电影、音乐、人物、地域在内的数百个类别的数百万个主题（26GB）

https://aws.amazon.com/de/datasets/freebase-data-dump/

Freebase简单主题转储：关于Freebase中每个主题的基本识别事实的数据转储（5 GB）

https://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

Freebase Quad Dump：Freebase中所有当前事实和主张的数据转储（35 GB）

https://aws.amazon.com/de/datasets/freebase-quad-dump/

GigaOM Wordpress Challenge [Kaggle]：预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息（1.5 GB）

https://www.kaggle.com/c/predict-wordpress-likes/data

Google Books Ngrams：包含在整个语料库中出现超过40次的n-gram，优化了快速查询小组短语的用法（2.2 TB）

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

Google Web 5gram：包含n-gram及其观察到的频率计数。n-gram的长度从unigrams（单个单词）到5-gram，主要用于统计语言建模（24 GB）

https://catalog.ldc.upenn.edu/LDC2006T13

Gutenberg EBooks：电子书基本信息的注释列表（2 MB）

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

哈佛图书馆：哈佛图书馆藏书记录已超过1,200万册，包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料（4GB）

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

仇恨言语识别：ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本：a）包含仇恨言论；b）是冒犯性的，但没有仇恨言论；c）根本没有冒犯性。由15,000行文本构成，每个字符串都经过3人判断（3 MB）

https://github.com/t-davidson/hate-speech-and-offensive-language

希拉里克林顿的电子邮件[Kaggle]：美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件（12 MB）

https://www.kaggle.com/kaggle/hillary-clinton-emails

Home Depot产品搜索相关性[Kaggle]：包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估，并给出1—3的相关性评分，可用来预测相关性（65 MB）

https://www.kaggle.com/c/home-depot-product-search-relevance/data

识别文本中的关键短语：Question / Answer pairs + context；如果与问题/答案有关，则判断上下文关系（8 MB）

https://www.figure-eight.com/data-for-everyone/

Jeopardy：包含216,930个危险问题（53 MB）

https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

20万英语笑话文本：来源于各个地方的208,000个纯文本笑话

https://github.com/taivop/joke-dataset

欧洲语言机器翻译：（612 MB）

http://statmt.org/wmt11/translation-task.html#download

材料安全数据表：230,000份材料安全数据表，包含化学成分、急救措施、储存和处理等信息（3 GB）

https://aws.amazon.com/de/datasets/material-safety-data-sheets/

澳大利亚新闻标题[Kaggle]：包含15年内（2003年初至2017年）澳大利亚广播公司发布的130万条新闻的标题，深入研究关键词，可以看到所有塑造了过去十年的重要事件，以及它们随着时间的演变历程（56 MB）

https://www.kaggle.com/therohk/million-headlines

MCTest：免费提供一组660个故事和相关问题，用于研究机器对文本的理解、回答问题（1 MB）

https://www.microsoft.com/en-us/research/lab/microsoft-research-redmond/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fredmond%2Fprojects%2Fmctest%2Findex.html

NEGRA：德语报刊文本的句法注释语料库，适用于所有大学和非营利组织，需要签署并发送表格才能获得

http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

印度新闻标题[Kaggle]：汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题（185 MB）

https://www.kaggle.com/therohk/india-headlines-news-dataset

新闻文章/维基百科页面配对：阅读一篇简短文章，并选出它和两篇维基百科文章中的哪一篇最接近（6 MB）

https://www.figure-eight.com/data-for-everyone/

NIPS2015论文（第2版）[Kaggle]：所有NIPS2015论文全文（335 MB）

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

NYTimes Facebook数据：所有《纽约时报》的Facebook帖子（5 MB）

http://minimaxir.com/2015/07/facebook-scraper/

一周全球新闻馈送[Kaggle]：一周内（2017年8月24日至2017年8月30日）全球在线发布的大多新闻内容的快照，包括大约140万篇文章、20,000个新闻来源和20多种语言（115 MB）

https://www.kaggle.com/therohk/global-news-week

句子/概念对的真实含义：用两个概念来读一个句子，例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”，判断这句话是否属实，然后将结果排列为1-5五个等级（700 KB）

https://www.figure-eight.com/data-for-everyone/

Open Library数据转储：包含Open Library中所有记录的最新版本的转储（16 GB）

https://openlibrary.org/developers/dumps

Personae语料库：收集用于作者信息和个性预测的实验，由145名不同学生编写的145篇荷兰语文章组成，每个学生还参加了在线MBTI性格测试

https://www.clips.uantwerpen.be/datasets/personae-corpus

Reddit评论：截至2015年7月的每个公开可用的书签评论，共计17亿条评论（250 GB）

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

Reddit评论（15年5月）[Kaggle]：上个数据集的子集（8 GB）

https://www.kaggle.com/reddit/reddit-comments-may-2015

Reddit推荐帖语料库：从2006年1月至2015年8月31日所有公开可用的Reddit推荐帖（42 GB）

https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

路透社语料库：包含大量路透社新闻报道，主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季，NIST接管了RCV1，所以现在需要向NIST发送请求并签署协议来获取这些数据集（2.5 GB）

https://trec.nist.gov/data/reuters/reuters.html

SaudiNewsNet：包含从各种在线沙特报纸中摘录的31,030份阿拉伯文报纸文章及其元数据（2 MB）

https://github.com/ParallelMazen/SaudiNewsNet

短信垃圾邮件收集：是一个包含5,574英文单词，真实的、未附带附件的短信内容集，已合法进行标记（200 KB）

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

SouthparkData：带有脚本信息的.csv文件，包含《南方公园》季数、剧集、角色等信息（3.6 MB）

https://github.com/BobAdamsEE/SouthParkData

Stackoverflow：730万个stackoverflow问题+其他stackexchanges（查询工具）

http://data.stackexchange.com/

Twitter Cheng-Caverlee-Lee Scrape：包含2009年9月至2010年1月twitter收集的基于内容的用户地理定位信息，包含115,886位Twitter用户和3,844,612个位置更新：经度、纬度（400 MB）

https://archive.org/details/twitter_cikm_2010

Twitter上关于新英格兰爱国者队泄气门（Deflategate）事件的情绪：新英格兰爱国者队在美国橄榄球联合会（AFC）决赛中击败印第安纳波利斯小马队，将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪，以衡量公众对整个事件的看法（2 MB）

https://www.figure-eight.com/data-for-everyone/

Twitter上激进分子情绪分析：关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文，如果所述推文对该问题赞成、反对或保持中立，则将其分类（600 KB）

https://www.figure-eight.com/data-for-everyone/

Twitter Sentiment140：与品牌/关键字相关的推文，网站上包括论文和研究想思路（77 MB）

http://help.sentiment140.com/for-students/

Twitter的情绪分析：自驾车：阅读推文，将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的，并标记其是否与自驾车相关（1 MB）

https://www.figure-eight.com/data-for-everyone/

Twitter东京地理定位推文：来自东京的20万条推文（47 MB）

http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

Twitter UK Geolocated Tweets：来自英国的17万条推文。（47 MB）

http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

Twitter美国地理定位推文：来自美国的20万条推文（45 MB）

http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

Twitter美国航空公司情绪[Kaggle]：收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月，评论者需选择正面、负面和中性中的一类，如有负面评价，再进行原因分类（如“晚班”或“粗鲁服务”）（2.5 MB）

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

基于新闻文章判断美国经济表现：新闻文章的标题和摘要与美国经济相关程度的排名（5 MB）

https://www.figure-eight.com/data-for-everyone/

Urban Dictionary词汇和定义[Kaggle]：截至2016年5月，包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库（238 MB）

https://www.kaggle.com/therohk/urban-dictionary-words-dataset

WestburyLab USENET语料库：2005—2010年47,860篇英语新闻的匿名汇总，文章长度在500字和500,000字之间，英文单词占比高达90%（40 GB）

https://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

WestburyLab维基百科语料库（2010）：包含2010年4月以前维基百科英文部分中的所有文章的快照，已经去除了所有链接和不相关的材料（导航文本等），但未经标记，是原始文本（1.8 GB）

http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

WEX：英文维基百科的处理转储（66 GB）

https://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

维基百科XML数据：维基媒体基金会提供的完整副本，以wikitext源代码和嵌入XML的元数据形式提供（500 GB）

https://aws.amazon.com/de/datasets/wikipedia-xml-data/

Yahoo! Answers Comprehensive Questions and Answers：2017年10月25日创建，包含4,483,032个问题及其答案（3.6 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo! Answers consisting of questions asked in French：Yahoo! Answers corpus from 2006 to 2015的子集，包含170万个法语问题以及相应的答案（3.8 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo! Answers Manner Questions：Yahoo! Answers corpus的子集，并根据语言属性进行选择，包含142,627个问题及其答案。（104 MB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo!从公开可用网页中提取的HTML表单：包含一小部分含有复杂HTML表单的页面，共计267万个复杂表单（50+ GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo!从公开可用网页中提取元数据：RDF数据（2 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo! N-Gram Representations：包含n-gram表示形式，这些数据可以作为查询重写任务的测试平台，这是IR研究中的一个常见问题，也是NLP研究中常见的单词和句子相似性任务（2.6 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo! N-Grams 2.0：n-gram（n = 1至5），从1260多个面向新闻的站点中检索到的1460万个文档（1.26亿条独特语句，34亿个运行词）（12 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo!搜索日志与相关性判断：匿名化的Yahoo!搜索日志与相关性判断（1.3 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yahoo!英语维基百科的语义注释快照：英文维基百科从2006年11月4日开始使用一些公开的NLP工具进行处理，共1,490,688个条目（6 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yelp：包括餐厅排名和220万条评论

https://www.yelp.com/dataset

YouTube：170万个YouTube视频的简介

https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

主要来源

awesome-public-datasets/ NLP（包含更多列表）
AWS公开数据集
CrowdFlower: Data for Everyone（包含大量小型调查以及为特定任务众包获得的数据）
Kaggle 1, 2（需要确保该比赛数据可用于其他非竞赛场合）
Open Library
Quora（主要注释的语料库）
/r/datasets（无尽的数据集列表，大部分是由业余爱好者提供的，但没有正确记录或许可）
rs.io（另一张大列表）
Stackexchange：Opendata
斯坦福大学NLP小组（主要注释语料库和TreeBanks，或提供实际的NLP工具）
Yahoo! Webscope（包含使用他们数据集的论文）

登录查看更多

相关内容

Kaggle

关注 1059

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

近期必读的10篇ACL 2019【图神经网络（GNN）+NLP】相关论文和代码

专知会员服务

71+阅读 · 2020年1月10日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

2019年自然语言处理NLP亮点总结，29页pdf，NLP Year in Review — 2019 NLP highlights for the year 2019.

专知会员服务

69+阅读 · 2020年1月2日

【深度学习最新、最全综述】从深度学习方法（监督，半监督，无监督，强化学习）到标准化数据集一应俱全，附39页pdf

专知会员服务

53+阅读 · 2019年12月1日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

74+阅读 · 2019年10月19日

学习自然语言处理路线图

专知会员服务

140+阅读 · 2019年9月24日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

40+阅读 · 2018年12月27日

历史最全-16个推荐系统开放公共数据集整理分享

深度学习与NLP

23+阅读 · 2018年7月28日

干货 | 100+个NLP数据集大放送，再不愁数据！

数据派THU

11+阅读 · 2018年5月2日

资源 | 100+个自然语言处理数据集大放送，再不愁找不到数据！

大数据文摘

6+阅读 · 2018年4月30日

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

Towards security defect prediction with AI

Arxiv

3+阅读 · 2018年9月12日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Robustness Analysis of Visual QA Models by Basic Questions

Arxiv

4+阅读 · 2018年5月26日

Recurrent Segmentation for Variable Computational Budgets

Arxiv

6+阅读 · 2018年3月15日

Machine Translation Using Semantic Web Technologies: A Survey

Arxiv

8+阅读 · 2018年2月1日

Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis

Arxiv

3+阅读 · 2018年1月11日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

Twitter Sentiment Analysis

Arxiv

5+阅读 · 2015年9月14日

VIP会员