自然语言处理领域公开数据集

会员服务 ·

自然语言处理领域公开数据集

2018 年 4 月 19 日 炼数成金订阅号

网上公开的数据集很多，在这里整理了一份关于自然语言处理领域的公开数据集的清单，内容如下。

1. Apache Software Foundation Public Mail Archives（公共邮件存档）
大小：200GB
内容：截至2011年7月11日所有公开可用的Apache Software Foundation邮件。
链接：https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2. Blog Authorship Corpus（博客作者身份语料库）
大小：298MB
内容：包含2004年8月从blogger.com收集的19,320位博主的文章，共计681,288篇，字数超过1.4亿—平均每人35篇、7250字。
链接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. Amazon Fine Food Reviews [Kaggle]（亚马逊食品评论）
大小：240MB
内容：数据跨越10年以上，包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论。
链接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

4. Amazon Reviews（亚马逊评论）
大小：11GB
内容：斯坦福收集了18年期间的3500万条亚马逊评论。
链接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

5. ASAP Automated Essay Scoring [Kaggle]（ASAP自动短文评分）
大小：100MB
内容：一共包含八个作文集，每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息，另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的，并经相关人员手工评分，有些还进行了双重评分。
链接：
https://www.kaggle.com/c/asap-aes/data

6. ASAP Short Answer Scoring [Kaggle]（ASAP自动简答题评分）
大小：35MB
内容：一共包含十个数据集，每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息，另一些则是自由发挥。所有答案都是由10年级的学生撰写的，并经相关人员手动分级并进行双重评分。
链接：
https://www.kaggle.com/c/asap-sas/data

7. Classification of political social media（美国政客的社交媒体消息分类）
大小：4MB
内容：收集了来自美国参议员和其他美国政客的数千条社交媒体消息，可按内容分类为目标群众（国家或选民）、政治主张（中立/两党或偏见/党派）和实际内容（如攻击政敌等）
链接：https://www.figure-eight.com/data-for-everyone/

8. CLiPS Stylometry Investigation (CSI) Corpus（CSI语料库）
内容：荷兰语，该语料库包含两种类型的学生信息：作文和评论。涉及作者（性别、年龄、性取向、来源地区、性格概况）和文档（时间、流派、真实性、情绪、等级）等大量原数据。由安特卫普大学CLiPS研究中心提供，主要用于计量文体学分析。
链接：https://www.clips.uantwerpen.be/datasets/csi-corpus

9. Common Crawl Corpus（AWS爬虫数据）
大小：541TB
内容：收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始，所有爬虫只持续一个月，数据以WARC文件格式存储。从2012年开始，抓取的数据还包含原数据（WAT）和文本数据（WET）提取，大大简化了数据处理。
链接：https://aws.amazon.com/cn/public-datasets/common-crawl/

10. Cornell Movie Dialog Corpus（康奈尔电影对话语料库）
大小：9.5MB
内容：包含从原始电影脚本中提取的对话集：10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符，共304,713个句子。元数据极其丰富，包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。
链接：
http://www.cs.cornell.edu/%7Ecristian/Cornell_Movie-Dialogs_Corpus.html

11. Crosswikis
大小：11GB
内容：英语短语相关的维基百科文章数据库、论文

12. DBpedia
大小：17GB
内容：包含从维基百科中提取出的结构化信息，包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息，其中2.57亿条来自维基百科英文版，7.66亿条来自其他语言版本。
链接：
https://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

13. Disasters on social media（社交媒体上有关灾难的消息）
大小：2MB
内容：包含10,000条和灾难事故相关的带注释推特
链接：https://www.figure-eight.com/data-for-everyone/

14. Enron Email Data（Enron电子邮件集）
大小：210GB
内容：包含1,227,255封电子邮件，其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML
链接：https://aws.amazon.com/de/datasets/enron-email-data/

15. Examiner.com - Spam Clickbait News Headlines [Kaggle]（垃圾邮件/标题党新闻数据集）
大小：200MB
内容：新闻网站The Examiner上的新闻汇编，包含超过6年的21000多位作者撰写的300万篇文章。
链接：https://www.kaggle.com/therohk/examine-the-examiner

16. Flickr Personal Taxonomies
大小：40MB
内容：社交媒体上用户按个人喜好分类内容的树形数据集。
链接：https://www.isi.edu/%7Elerman/downloads/flickr/flickr_taxonomies.html

17. Freebase Data Dump
大小：26GB
内容：是一个开放的世界信息数据库，包含电影、音乐、人物、地域在内的数百个类别的数百万个主题。
链接：https://aws.amazon.com/de/datasets/freebase-data-dump/

18. GigaOM Wordpress Challenge [Kaggle]
大小：1.5GB
内容：预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息。
链接：https://www.kaggle.com/c/predict-wordpress-likes/data

19. Hate speech identification（仇恨言语识别）
大小：3MB
内容：由ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者提供。包含3类短文本：a）包含仇恨言论；b）是冒犯性的，但没有仇恨言论；c）根本没有冒犯性。由15,000行文本构成，每个字符串都经过3人判断。
链接：https://github.com/t-davidson/hate-speech-and-offensive-language

20. Home Depot Product Search Relevance [Kaggle]
大小：65MB
内容：包含Home Depot网站上的关于产品和真实客户的搜索信息。每对词都经3名评估人员评估，并给出1-3的相关性评分，可用来预测相关性。
链接：https://www.kaggle.com/c/home-depot-product-search-relevance/data

21. Material Safety Datasheets（材料安全数据表）
大小：3GB
内容：230,000份材料安全数据表，包含化学成分、急救措施、储存和处理等信息。
链接：https://aws.amazon.com/de/datasets/material-safety-data-sheets/

22. MCTest
大小：1MB
内容：提供660个故事和相关问题，用于研究机器对文本的理解、回答问题。
链接：https://www.microsoft.com/en-us/research/lab/microsoft-research-redmond/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fredmond%2Fprojects%2Fmctest%2Findex.html

23. NYTimes Facebook Data（NYTimes Facebook数据）
大小：5MB
内容：所有关于《纽约时报》的Facebook帖子
链接：http://minimaxir.com/2015/07/facebook-scraper/

24. One Week of Global News Feeds （一周全球新闻馈送）
大小：115MB
内容：一周内（2017年8月24日至2017年8月30日）全球在线发布的大多新闻内容的快照，包括大约140万篇文章、20,000个新闻来源和20多种语言。
链接：https://www.kaggle.com/therohk/global-news-week

25. Reddit Comments（Reddit评论）
大小：250GB
内容：截至2015年7月的每个公开可用的书签评论，共计17亿条评论

登录查看更多

相关内容

ASAP

关注 0

ASAP：Application-Specific Systems, Architectures, and Processors。 Explanation：特定于应用程序的系统、体系结构和处理器。 Publisher： IEEE。 SIT：http://dblp.uni-trier.de/db/conf/asap

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

专知会员服务

85+阅读 · 2020年6月16日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【深度学习最新、最全综述】从深度学习方法（监督，半监督，无监督，强化学习）到标准化数据集一应俱全，附39页pdf

专知会员服务

53+阅读 · 2019年12月1日

干货 | 100+个NLP数据集大放送，再不愁数据！

数据派THU

11+阅读 · 2018年5月2日

资源 | 100+个自然语言处理数据集大放送，再不愁找不到数据！

大数据文摘

6+阅读 · 2018年4月30日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

资源|各领域公开数据集

七月在线实验室

5+阅读 · 2017年8月25日

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Arxiv

8+阅读 · 2018年4月26日

Recurrent Segmentation for Variable Computational Budgets

Arxiv

6+阅读 · 2018年3月15日

VIP会员