点击上方“CVer”,选择加"星标"或“置顶”
重磅干货,第一时间送达
本文转载自:读芯术(AI_Discovery)
数据科学Dojo在其存储库中添加了15个数据集,可供数据科学爱好者和AI爱好者免费使用,并根据不同的难度级别进行了分类。它们能够增加使用者的知识储备并实践练习,以提高在各个领域的技能,比如探索性数据分析、数据可视化、数据整理和机器学习。
为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可以随意使用。
1. 通过物理测量判断鲍鱼的年龄
水平:初级
推荐使用:回归模型
领域:生物
这个初级水平数据集有4,177行,9列关于鲍鱼的物理测量值和环数(代表年龄)。鲍鱼的年龄通常由枯燥且耗时的任务决定。因此,这些易于获得的物理测量可用于预测年龄。
链接:https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Abalone
2. 预测学生的知识水平
水平:初级
推荐使用:分类/聚合
领域:教育/网页
该数据集有403行和6列。它是关于学生对于电气直流电机知识的真实数据集。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/User%20Knowledge%20Modeling
3. 预测房价
水平:初级
推荐使用:回归模型
领域:房地产
该数据集有414行7列与房屋的各种属性相关,提供了从台湾新北市新店区收集的房地产估价的市场历史数据。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Real%20Estate%20Valuation
4. 从WIFI信号的强弱预测位置
水平:初级
推荐使用:分类模型
领域:移动/定位
这个初学者级数据集有2,000行和8列。该数据是从在室内空间收集的智能手机上的7个wifi设备观察到的wifi信号强度,其可用于估计位置。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Wireless%20Indoor%20Localization
5. 预测汽车的可接受性
水平:初级
推荐使用:分类模型
领域:汽车
该数据集有1,728行和7列,其中汽车属性,如价格和技术,在6个变量中描述为“购买价格”,“维护”和“安全”等。每个变量下有多个替代品。汽车的可接受性是第七个属性,属于结果变量。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Car%20Evaluation
6. 预测精子的质量
水平:初级
推荐使用:回归/分类模型
领域:医疗/人寿
该数据集有10个属性。它包括100名志愿者的精液样本,根据WHO 2010标准进行分析。它可用于确定是否可以在没有实验室方法的情况下进行诊断,其中包括很昂贵的测试。使用问卷调查可以轻松获取该数据集中显示的属性以估计精子浓度。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Fertility
7. 从专家的定性参数评估破产的可能性
水平:初级
推荐使用:分类模型
领域:金融/银行
该数据集有250行和7列。它包含专家认为的6个定性参数,可用于预测破产。
链接:
https://blog.datasciencedojo.com/30-datasets-to-uplift-your-skills-in-data-science/
8. 预测汽车的燃油效率
水平:中级
推荐使用:回归模型
领域:汽车
该数据集有398行,9列,并提供汽车的里程数、马力、车产时间和其他技术规格。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Auto%20MPG
9. 胸痛是否是心脏病的一个指标?
水平:中级
推荐使用:分类模型
领域:健康
该数据集提供了303名患有胸痛且可能患有心脏病的患者的健康检查数据。该数据集具有14个属性,以确定被诊断患者是否患有心脏病。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Heart%20Disease
10. 预测订单总需求量
水平:中级
推荐使用:回归模型
领域:商业
该中级水平的数据集具有60行和13列。这些数据是在60天内收集的,是巴西物流公司的真实数据库。有12个预测属性和一个目标,即每日的总订单。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Daily%20Demand%20Forecasting%20Orders
11. 预测捐赠者是否会在2007年3月献血
水平:中级
推荐使用:分类模型
领域:商业
该数据集有748个实例和5个属性。这些数据来自台湾新竹市的输血服务中心捐献者数据库。该中心将他们的输血服务巴士开往新竹市的一所大学,每三个月收集一次捐献的血液。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Blood%20Transfusion%20Service%20Center
12. 预测城市的污染水平
水平:中级水平
推荐使用:回归模型
领域:环保
该数据集有43,424行和13列。它包含来自美国驻北京大使馆的PM2.5数据。北京首都国际机场的气象资料也包括在内。该数据集可用于使用提供的空气质量属性进行污染水平预测。它还能实现多变量时间序列预测。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Beijing%20PM2.5
13. 心脏病发后能否活过一年
水平:中级
推荐使用:分类模型
领域:汽车
该数据集有132行和12列。可用于辨别患者是否会在心脏病发作后存活至少一年。数据集中列出的所有患者在过去的某些时候都遭受了心脏病发作。有些人还活着,有些则没有。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Echocardiogram
14. 评估混凝土的抗压强度
水平:中级
推荐使用:回归模型
领域:土木工程
这个集合有1,030行和9列。混凝土是土木工程中最重要的材料。混凝土抗压强度是年龄和成分的高度非线性函数。在特定年限(以“天”为单位)下给定混合物的实际混凝土抗压强度(MPa)由实验室确定。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Concrete%20Compressive%20Strength
15. 肝脏疾病与饮酒的关系
水平:中级
推荐使用:分类/回归/聚类模型
领域:医疗
该数据集有345行和7列。该数据集不包含表示存在或不存在肝脏疾病的变量。前五列代表各种血液测试的结果,这些测试可用于诊断酒精相关的肝脏疾病。第六个代表受试者每天消耗的酒精饮料数量(自我报告)。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Liver%20Disorders
重磅!CVer学术交流群成立啦
扫码添加CVer助手,可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)
▲长按加群
▲长按关注我们
麻烦给我一个在看!