这15个有趣的数据集,你可能闻所未闻

2019 年 9 月 14 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文转载自:读芯术(AI_Discovery)


数据科学Dojo在其存储库中添加了15个数据集,可供数据科学爱好者和AI爱好者免费使用,并根据不同的难度级别进行了分类。它们能够增加使用者的知识储备并实践练习,以提高在各个领域的技能,比如探索性数据分析、数据可视化、数据整理和机器学习。


为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可以随意使用。


1. 通过物理测量判断鲍鱼的年龄



水平:初级


推荐使用:回归模型


领域:生物


这个初级水平数据集有4,177行,9列关于鲍鱼的物理测量值和环数(代表年龄)。鲍鱼的年龄通常由枯燥且耗时的任务决定。因此,这些易于获得的物理测量可用于预测年龄。


链接:https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Abalone


2. 预测学生的知识水平



水平:初级


推荐使用:分类/聚合


领域:教育/网页


该数据集有403行和6列。它是关于学生对于电气直流电机知识的真实数据集。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/User%20Knowledge%20Modeling 


3. 预测房价



水平:初级


推荐使用:回归模型


领域:房地产


该数据集有414行7列与房屋的各种属性相关,提供了从台湾新北市新店区收集的房地产估价的市场历史数据。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Real%20Estate%20Valuation


4. 从WIFI信号的强弱预测位置



水平:初级


推荐使用:分类模型


领域:移动/定位


这个初学者级数据集有2,000行和8列。该数据是从在室内空间收集的智能手机上的7个wifi设备观察到的wifi信号强度,其可用于估计位置。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Wireless%20Indoor%20Localization


5. 预测汽车的可接受性



水平:初级


推荐使用:分类模型


领域:汽车


该数据集有1,728行和7列,其中汽车属性,如价格和技术,在6个变量中描述为“购买价格”,“维护”和“安全”等。每个变量下有多个替代品。汽车的可接受性是第七个属性,属于结果变量。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Car%20Evaluation


6. 预测精子的质量


水平:初级


推荐使用:回归/分类模型


领域:医疗/人寿


该数据集有10个属性。它包括100名志愿者的精液样本,根据WHO 2010标准进行分析。它可用于确定是否可以在没有实验室方法的情况下进行诊断,其中包括很昂贵的测试。使用问卷调查可以轻松获取该数据集中显示的属性以估计精子浓度。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Fertility 


7. 从专家的定性参数评估破产的可能性



水平:初级


推荐使用:分类模型


领域:金融/银行


该数据集有250行和7列。它包含专家认为的6个定性参数,可用于预测破产。


链接:

https://blog.datasciencedojo.com/30-datasets-to-uplift-your-skills-in-data-science/

 

8. 预测汽车的燃油效率



水平:中级


推荐使用:回归模型


领域:汽车


该数据集有398行,9列,并提供汽车的里程数、马力、车产时间和其他技术规格。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Auto%20MPG


9. 胸痛是否是心脏病的一个指标?



水平:中级


推荐使用:分类模型


领域:健康


该数据集提供了303名患有胸痛且可能患有心脏病的患者的健康检查数据。该数据集具有14个属性,以确定被诊断患者是否患有心脏病。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Heart%20Disease


10. 预测订单总需求量



水平:中级


推荐使用:回归模型


领域:商业


该中级水平的数据集具有60行和13列。这些数据是在60天内收集的,是巴西物流公司的真实数据库。有12个预测属性和一个目标,即每日的总订单。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Daily%20Demand%20Forecasting%20Orders


11. 预测捐赠者是否会在2007年3月献血



水平:中级


推荐使用:分类模型


领域:商业


该数据集有748个实例和5个属性。这些数据来自台湾新竹市的输血服务中心捐献者数据库。该中心将他们的输血服务巴士开往新竹市的一所大学,每三个月收集一次捐献的血液。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Blood%20Transfusion%20Service%20Center


12. 预测城市的污染水平



水平:中级水平


推荐使用:回归模型


领域:环保


该数据集有43,424行和13列。它包含来自美国驻北京大使馆的PM2.5数据。北京首都国际机场的气象资料也包括在内。该数据集可用于使用提供的空气质量属性进行污染水平预测。它还能实现多变量时间序列预测。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Beijing%20PM2.5 


13. 心脏病发后能否活过一年



水平:中级


推荐使用:分类模型


领域:汽车


该数据集有132行和12列。可用于辨别患者是否会在心脏病发作后存活至少一年。数据集中列出的所有患者在过去的某些时候都遭受了心脏病发作。有些人还活着,有些则没有。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Echocardiogram


14. 评估混凝土的抗压强度



水平:中级


推荐使用:回归模型


领域:土木工程


这个集合有1,030行和9列。混凝土是土木工程中最重要的材料。混凝土抗压强度是年龄和成分的高度非线性函数。在特定年限(以“天”为单位)下给定混合物的实际混凝土抗压强度(MPa)由实验室确定。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Concrete%20Compressive%20Strength


15. 肝脏疾病与饮酒的关系



水平:中级


推荐使用:分类/回归/聚类模型


领域:医疗


该数据集有345行和7列。该数据集不包含表示存在或不存在肝脏疾病的变量。前五列代表各种血液测试的结果,这些测试可用于诊断酒精相关的肝脏疾病。第六个代表受试者每天消耗的酒精饮料数量(自我报告)。


链接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Liver%20Disorders


重磅!CVer学术交流群成立啦


扫码添加CVer助手,可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
4

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
样本不平衡数据集防坑骗指南
人工智能前沿讲习班
8+阅读 · 2018年6月7日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
你用 Python 做过什么有趣的数据挖掘项目?
计算机与网络安全
4+阅读 · 2018年2月11日
干货|7步让你从零开始掌握Python机器学习!
全球人工智能
8+阅读 · 2017年9月24日
下载 ‖ 十大医疗数据集
机械鸡
103+阅读 · 2017年8月5日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
6+阅读 · 2018年2月6日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
相关资讯
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
样本不平衡数据集防坑骗指南
人工智能前沿讲习班
8+阅读 · 2018年6月7日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
你用 Python 做过什么有趣的数据挖掘项目?
计算机与网络安全
4+阅读 · 2018年2月11日
干货|7步让你从零开始掌握Python机器学习!
全球人工智能
8+阅读 · 2017年9月24日
下载 ‖ 十大医疗数据集
机械鸡
103+阅读 · 2017年8月5日
相关论文
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
6+阅读 · 2018年2月6日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员