我是如何寻找数据集的,一些个人私藏

2021 年 12 月 17 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨kaiyuan
来源丨NewBeeNLP
编辑丨极市平台

极市导读

 

本文整理了十多个非常全面的数据集查找平台分享给大家~ >>加入极市CV技术交流群,走在计算机视觉的最前沿

Google 数据集

谷歌为数据集专门开发的搜索系统,20年初就已经覆盖2500万的数据集。界面也非常简洁,输入关键词即可返回相对应的数据集描述,如下。
  • 链接:https://datasetsearch.research.google.com/

▲搜索界面

▲搜索文本分类出来的结果


Huggingface数据集

NLP界网红抱抱脸家的数据集,主要是自然语言处理方面的数据。支持使用python直接调取,譬如squad_dataset = load_datasets("squad")。
  • 链接1:https://github.com/huggingface/datasets
  • 链接2:https://huggingface.co/datasets
▲huggingface dataset

Kaggle 数据集

Kaggle大家再熟悉不过了,比赛平台自然少不了数据啦。
  • 链接:https://www.kaggle.com/datasets
▲Kaggle Dataset


Paper With Code 数据集

4075个机器学习相关数据集,相比于其他平台的优势是会将数据集和相应领域的paper和benchmark对应在一起。
  • 链接:https://www.paperswithcode.com/datasets
▲PwC dataset


Reddit 数据集

Reddit是国外热门论坛,在dataset板块,可以搜索数据集。相比于其他平台不同的是,可以与其他人针对数据集一起讨论。
  • 链接:https://www.reddit.com/r/datasets/
▲reddit dataset

CLUE 数据集

虽然上述平台也会涵盖中文的数据集,但是可能并不全面。CLUE组织专门针对中文NLP数据搭建了一个平台,同时开源了许多中文大规模数据和预训练模型,点赞!!
  • 链接:https://www.cluebenchmarks.com/dataSet_search.html
▲CLUE dataset

以上几个数据集是我自己平时使用效果比较好的,如果还没找到你想要的数据,再提供几个可以尝试:
  • https://www.datasetlist.com/
  • https://github.com/awesomedata/awesome-public-datasets
  • https://tinyletter.com/data-is-plural
  • https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html
  • https://www.openml.org/search?type=data
  • https://github.com/InsaneLife/ChineseNLPCorpus

Enjoy your data trip!


如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载~


极市干货
课程/比赛: 珠港澳人工智能算法大赛 保姆级零基础人工智能教程
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~



觉得有用麻烦给个在看啦~   


登录查看更多
9

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
吴恩达知乎问答:如何系统学习机器学习?
专知会员服务
18+阅读 · 2022年4月10日
如何用latext画神经网络?这个PlotNeuralNet能帮到你
专知会员服务
25+阅读 · 2022年1月15日
【UAI2021教程】贝叶斯最优学习,65页ppt
专知会员服务
63+阅读 · 2021年8月7日
【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
52+阅读 · 2021年2月12日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
29+阅读 · 2020年12月20日
专知会员服务
118+阅读 · 2020年7月22日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
实践教程|如何用YOLOX训练自己的数据集?
极市平台
0+阅读 · 2022年1月5日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
56+阅读 · 2020年3月13日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
自然语言处理数据集免费资源开放(附学习资料)
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
25+阅读 · 2017年9月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年6月30日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
15+阅读 · 2021年11月19日
VIP会员
相关VIP内容
吴恩达知乎问答:如何系统学习机器学习?
专知会员服务
18+阅读 · 2022年4月10日
如何用latext画神经网络?这个PlotNeuralNet能帮到你
专知会员服务
25+阅读 · 2022年1月15日
【UAI2021教程】贝叶斯最优学习,65页ppt
专知会员服务
63+阅读 · 2021年8月7日
【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
52+阅读 · 2021年2月12日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
29+阅读 · 2020年12月20日
专知会员服务
118+阅读 · 2020年7月22日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
相关资讯
实践教程|如何用YOLOX训练自己的数据集?
极市平台
0+阅读 · 2022年1月5日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
56+阅读 · 2020年3月13日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
自然语言处理数据集免费资源开放(附学习资料)
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
25+阅读 · 2017年9月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年6月30日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员