自然语言处理领域公开数据集

2018 年 4 月 19 日 黑龙江大学自然语言处理实验室 Song

网上公开的数据集很多,在这里整理了一份关于自然语言处理领域的公开数据集的清单,内容如下。


1.  Apache Software Foundation Public Mail Archives(公共邮件存档)

大小:200GB

内容:截至2011年7月11日所有公开可用的Apache Software Foundation邮件。

链接:https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/


2. Blog Authorship Corpus(博客作者身份语料库)

大小:298MB

内容:包含2004年8月从blogger.com收集的19,320位博主的文章,共计681,288篇,字数超过1.4亿—平均每人35篇、7250字。

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


3. Amazon Fine Food Reviews [Kaggle](亚马逊食品评论)

大小:240MB

内容:数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论。

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


4. Amazon Reviews(亚马逊评论)

大小:11GB

内容:斯坦福收集了18年期间的3500万条亚马逊评论。

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm


5. ASAP Automated Essay Scoring [Kaggle](ASAP自动短文评分)

大小:100MB

内容:一共包含八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的,并经相关人员手工评分,有些还进行了双重评分。

链接:

https://www.kaggle.com/c/asap-aes/data


6. ASAP Short Answer Scoring [Kaggle](ASAP自动简答题评分)

大小:35MB

内容:一共包含十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案都是由10年级的学生撰写的,并经相关人员手动分级并进行双重评分。

链接:

https://www.kaggle.com/c/asap-sas/data


7. Classification of political social media(美国政客的社交媒体消息分类)

大小:4MB

内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)

链接:https://www.figure-eight.com/data-for-everyone/


8. CLiPS Stylometry Investigation (CSI) Corpus(CSI语料库)

内容:荷兰语,该语料库包含两种类型的学生信息:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量原数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。

链接:https://www.clips.uantwerpen.be/datasets/csi-corpus


9. Common Crawl Corpus(AWS爬虫数据)

大小:541TB

内容:收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含原数据(WAT)和文本数据(WET)提取,大大简化了数据处理。

链接:https://aws.amazon.com/cn/public-datasets/common-crawl/


10. Cornell Movie Dialog Corpus(康奈尔电影对话语料库)

大小:9.5MB

内容:包含从原始电影脚本中提取的对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,713个句子。元数据极其丰富,包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

链接:

http://www.cs.cornell.edu/%7Ecristian/Cornell_Movie-Dialogs_Corpus.html


11. Crosswikis

大小:11GB

内容:英语短语相关的维基百科文章数据库、论文


12. DBpedia

大小:17GB

内容:包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息,其中2.57亿条来自维基百科英文版,7.66亿条来自其他语言版本。

链接:

https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic


13. Disasters on social media(社交媒体上有关灾难的消息)

大小:2MB

内容:包含10,000条和灾难事故相关的带注释推特

链接:https://www.figure-eight.com/data-for-everyone/


14. Enron Email Data(Enron电子邮件集)

大小:210GB

内容:包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML

链接:https://aws.amazon.com/de/datasets/enron-email-data/


15. Examiner.com - Spam Clickbait News Headlines [Kaggle](垃圾邮件/标题党新闻数据集)

大小:200MB

内容:新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章。

链接:https://www.kaggle.com/therohk/examine-the-examiner


16. Flickr Personal Taxonomies

大小:40MB

内容:社交媒体上用户按个人喜好分类内容的树形数据集。

链接:https://www.isi.edu/%7Elerman/downloads/flickr/flickr_taxonomies.html


17. Freebase Data Dump

大小:26GB

内容:是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题。

链接:https://aws.amazon.com/de/datasets/freebase-data-dump/


18. GigaOM Wordpress Challenge [Kaggle]

大小:1.5GB

内容:预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息。

链接:https://www.kaggle.com/c/predict-wordpress-likes/data


19. Hate speech identification(仇恨言语识别)

大小:3MB

内容:由ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者提供。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨言论;c)根本没有冒犯性。由15,000行文本构成,每个字符串都经过3人判断。

链接:https://github.com/t-davidson/hate-speech-and-offensive-language


20. Home Depot Product Search Relevance [Kaggle]

大小:65MB

内容:包含Home Depot网站上的关于产品和真实客户的搜索信息。每对词都经3名评估人员评估,并给出1-3的相关性评分,可用来预测相关性。

链接:https://www.kaggle.com/c/home-depot-product-search-relevance/data


21. Material Safety Datasheets(材料安全数据表)

大小:3GB

内容:230,000份材料安全数据表,包含化学成分、急救措施、储存和处理等信息。

链接:https://aws.amazon.com/de/datasets/material-safety-data-sheets/


22. MCTest

大小:1MB

内容:提供660个故事和相关问题,用于研究机器对文本的理解、回答问题。

链接:https://www.microsoft.com/en-us/research/lab/microsoft-research-redmond/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fredmond%2Fprojects%2Fmctest%2Findex.html


23. NYTimes Facebook Data(NYTimes Facebook数据)

大小:5MB

内容:所有关于《纽约时报》的Facebook帖子

链接:http://minimaxir.com/2015/07/facebook-scraper/


24. One Week of Global News Feeds (一周全球新闻馈送)

大小:115MB

内容:一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多种语言。

链接:https://www.kaggle.com/therohk/global-news-week


25. Reddit Comments(Reddit评论)

大小:250GB

内容:截至2015年7月的每个公开可用的书签评论,共计17亿条评论

链接:

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/


26. SMS Spam Collection(短信垃圾邮件收集)

大小:200KB

内容:是一个包含5,574英文单词,真实的、未附带附件的短信内容集,已合法进行标记

链接:http://www.dt.fee.unicamp.br/%7Etiago/smsspamcollection/


27. Yahoo! Answers Comprehensive Questions and Answers

大小:3.6GB

内容:2017年10月25日创建,包含4,483,032个问题及其答案。

链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l


28. Yahoo! Answers Manner Questions

大小:104MB

内容:Yahoo! Answers corpus的子集,并根据语言属性进行选择,包含142,627个问题及其答案。

链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l


29. Yahoo! N-Gram Representations

大小:2.6GB

内容:包含n-gram表示形式,这些数据可以作为查询重写任务的测试,这是IR研究中的一个常见问题,也可用于NLP研究中常见的单词和句子相似性任务。

链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l


30. Yahoo! N-Grams 2.0

大小:12GB

内容:n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条语句,34亿个词)。

链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=l


31. Yelp

内容:包括餐厅排名和220万条评论。

链接:https://www.yelp.com/dataset



与情感分析任务相关的数据集:


1. Twitter New England Patriots Deflategate sentiment(Twitter上关于新英格兰爱国者队泄气门(Deflategate)事件的情绪)

大小:2MB

内容:新英格兰爱国者队在美国橄榄球联合会(AFC)决赛中击败印第安纳波利斯小马队,将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪,以衡量公众对整个事件的看法。

链接:https://www.figure-eight.com/data-for-everyone/


2. Twitter Progressive issues sentiment analysis(Twitter上激进分子情绪分析)

大小:600KB

内容:关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文,分为赞成、反对或保持中立的三种类别。

链接:https://www.figure-eight.com/data-for-everyone/


3. Twitter Sentiment140

大小:77MB

内容:与品牌/关键字相关的推文。是一个可用于情感分析的数据集。

链接:http://help.sentiment140.com/for-students/


4. Twitter sentiment analysis: Self-driving cars

大小:1MB

内容:自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关。

链接:https://www.figure-eight.com/data-for-everyone/


5. Twitter US Airline Sentiment [Kaggle](Twitter美国航空公司)

大小:2.5MB

内容:收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有负面评价,再进行原因分类(如“晚班”或“粗鲁服务”)。

链接:https://www.kaggle.com/crowdflower/twitter-airline-sentiment


6. 豆瓣网影评情感测试语料

内容:来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料库527页。每页20条短评。共计11323条评论。

链接:http://www.datatang.com/data/13539


7. 康奈尔大学(Cornell)提供的影评数据集

内容:由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中。

链接:http://www.cs.cornell.edu/people/pabo/movie-review-data


8. 知网的情感词典

内容:由知网发布的词典,包括中文情感词典和英文情感词典。

链接:http://www.keenage.com/html/c_bulletin_2007.htm


9. 台湾大学的情感极性词典

内容:包括2810个正极性词语和8276个负极性词语,准确度很高

链接:http://www.datatang.com/data/11837


10. 主观词词典

内容:该词典的主观词语来自OpinionFinder 系统,该词典含有8,221 个主观词,并为每个词语标注了词性以及情感极性。

链接:http://www.cs.pitt.edu/mpqa


11. HowNet 评价词词典

内容:该词典包含9,193 个中文评价词语/短语, 9,142 个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源。

链接:http://www.keenage.com/html/e_index.html



本文的编辑参考了以下文章:

1. 知乎专栏:https://www.zhihu.com/org/lun-zhi-40/activities

2. 公众号:机器学习算法与Python学习-情感分析语料库





推荐阅读

基础 | TreeLSTM Sentiment Classification

基础 | 详解依存树的来龙去脉及用法

基础 | 基于注意力机制的seq2seq网络

原创 | Simple Recurrent Unit For Sentence Classification

原创 | Highway Networks For Sentence Classification


欢迎关注交流


登录查看更多
66

相关内容

ASAP:Application-Specific Systems, Architectures, and Processors。 Explanation:特定于应用程序的系统、体系结构和处理器。 Publisher: IEEE。 SIT:http://dblp.uni-trier.de/db/conf/asap
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
67+阅读 · 2020年5月19日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
120+阅读 · 2020年5月6日
专知会员服务
201+阅读 · 2020年3月6日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
57+阅读 · 2020年3月6日
零样本图像分类综述 : 十年进展
专知会员服务
128+阅读 · 2019年11月16日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
72+阅读 · 2019年11月3日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
8+阅读 · 2019年3月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
3+阅读 · 2018年9月12日
VIP会员
相关资讯
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
相关论文
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
8+阅读 · 2019年3月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
3+阅读 · 2018年9月12日
Top
微信扫码咨询专知VIP会员