Google 数据集
谷歌为数据集专门开发的搜索系统,20年初就已经覆盖2500万的数据集。界面也非常简洁,输入关键词即可返回相对应的数据集描述,如下。
链接:https://datasetsearch.research.google.com/
▲搜索界面
Huggingface数据集
NLP界网红抱抱脸家的数据集,主要是自然语言处理方面的数据。支持使用python直接调取,譬如squad_dataset = load_datasets("squad")。
链接1:https://github.com/huggingface/datasets
链接2:https://huggingface.co/datasets
Kaggle 数据集
Kaggle大家再熟悉不过了,比赛平台自然少不了数据啦。
链接:https://www.kaggle.com/datasets
Paper With Code 数据集
4075个机器学习相关数据集,相比于其他平台的优势是会将数据集和相应领域的paper和benchmark对应在一起。
链接:https://www.paperswithcode.com/datasets
Reddit 数据集
Reddit是国外热门论坛,在dataset板块,可以搜索数据集。相比于其他平台不同的是,可以与其他人针对数据集一起讨论。
链接:https://www.reddit.com/r/datasets/
CLUE 数据集
虽然上述平台也会涵盖中文的数据集,但是可能并不全面。CLUE组织专门针对中文NLP数据搭建了一个平台,同时开源了许多中文大规模数据和预训练模型,点赞!!
链接:https://www.cluebenchmarks.com/dataSet_search.html
▲CLUE dataset
以上几个数据集是我自己平时使用效果比较好的,如果还没找到你想要的数据,再提供几个可以尝试:
https://www.datasetlist.com/
https://github.com/awesomedata/awesome-public-datasets
https://tinyletter.com/data-is-plural
https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html
https://www.openml.org/search?type=data
https://github.com/InsaneLife/ChineseNLPCorpus
公众号后台回复“ transformer ”获取最新Transformer综述论文下载~
备注: 姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市 目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解 等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+ 来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~
觉得有用麻烦给个在看啦~