伯克利RISELab推出免费在线课程，涵盖数据科学、机器学习等3门课程

2018 年 4 月 2 日 AI前线 免费在线课程

策划编辑 | Natalie

编译 | Vincent

编辑 | Emily

AI 前线导读：RISE 实验室的前身是赫赫有名的伯克利 AMP 实验室，该实验室曾开发出了一大批大获成功的分布式技术，这些技术对高性能计算产生了深远的影响，包括 Spark、Mesos、Tachyon 等。人工智能领域大神 Michael I. Jordan 是 RISE 实验室的领军人物，该实验室近期连续推出了志在取代 Spark 的新型分布式执行框架 Ray（详见报道）和世界上最快的 KVS 数据库 Anna（详见报道），都在业界引起了很大的反响。

近日，伯克利 RISE 实验室在教育网络平台上开放了一门免费的数据科学入门课程，该课程面向那些需要学习数据科学而又缺少数学及编程经验的人，除了数据科学基础，也涵盖了机器学习课程。

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

据统计，数据科学是美国增长最快的工作领域之一，吸引了包括技术、制造、零售、政府和金融在内的各种行业的需求。各种各样的组织需要增强他们制定有效的数据驱动决策的能力，根据权威部门统计：入门级数据科学家的平均年薪是 118,748 美元（合人民币：744253 元）。

为了帮助更多人进入这一领域，为了让更多人享受到数据科学与人工智能带来的便利，加州大学伯克利分校决定将“数据科学基础”课程（又称 Data 8X）在网络上向所有人开放。这门在线课程基于伯克利 2015 年在校园开设的数据科学基础课程，目前每学期有 1000 多名学生注册，是伯克利历史上增长最快的一门课程。该在线课程将于 4 月 3 日正式登陆 edX（由麻省理工学院和哈佛大学创建的大规模开放在线课堂平台）。

该课程由屡获殊荣的伯克利教授授课，而课程内容设计则来自由 RISE 教员、人工智能领域大神 Michael I. Jordan 领导的伯克利计算机科学与统计部门教师团队。

课程概览

数据科学基础系列课将从头开始教授计算和推理思想。它涵盖了从测试假设，应用统计推断，可视化分布和绘制结论等所有内容，值得一提的是，所有编程作业都是在 Python 中编写代码并使用真实世界的数据集。

其中一门课程会让学生基于从不同国家收集的多年来的经济数据跟踪全球经济增长。另一门课程会使用细胞样本数据集来创建能够诊断乳腺癌的分类算法。在现实世界中进行数据科学的探索，能够使前沿的统计学和计算机科学概念更加直观，并且适合于每一个普通人。

在这个日益变得数据驱动化的世界中，Data 8X 课程为学生提供了一个机会，无论他们身处世界的哪一个角落、年纪多大、有什么样的教育背景，都可以学习如何使用、理解和应用数据科学概念。参与课程的学员只需要在网站提供的 Jupyter Notebook 编程环境下学习和完成作业，其中包含了开始编码所需的所有工具，无需任何复杂的安装过程或陡峭的学习曲线。本课程不要求学员具备任何统计学、计算机科学或编程经验。

Data 8X 系列课程共包含三门独立的在线课程，每一门课为期 5 周：

数据科学基础： 使用 Python 进行计算思维，通过使用流行的编程语言 Python，教授计算思维的基础知识，这是当今数据驱动世界的基本技能。

重采样思维： 通过重采样的推理思维教导如何使用推理思维根据随机样本中的数据对未知数作出结论。

预测和机器学习： 教授如何使用机器学习，专注于回归和分类，自动识别数据模式并做出更好的预测。

每门课程都由 edX 免费提供，整个课程可作为数据科学专业证书课程的基础。但是如果用户想要获得下面这样的一张专业证书的话，可能需要花费 $357 来报名整套课程，不过如果你只是想学习，但不需要证书来证明自己完成了课程的话，那么就没必要花这笔钱了。

授课团队

John DeNero，加州大学伯克利分校 EECS 部的吉安卡洛教学研究员。2014 年加入加州大学，致力于计算机科学和数据科学方面的本科教育。教授并共同开发了两门最大的校园课程：专业计算机科学入门（每年 3000 名学生）和数据科学入门（每年 1500 名学生）。

David Wagner，加州大学伯克利分校计算机科学教授。他在科学文献中发表了 100 多篇同行评议论文，并共同撰写了两本有关加密和计算机安全的书籍。他的研究分析并贡献了蜂窝网络，802.11 无线网络，电子投票系统和其他广泛部署的系统的安全性。

Ani Adhikari，加州大学伯克利分校统计高级讲师，在斯坦福大学获得伯克利杰出教学奖和杰出教学奖。虽然她的研究兴趣集中在统计学在自然科学中的应用，但她的主要焦点始终是教授和指导学生。她教所有级别的课程，对于数学基础薄弱的学生教授统计数据具有特别的授课方式。她同时还获得了印度统计研究所的学士学位和博士学位。

详细介绍

数据科学基础

本课程教授操作数据的基本编程技巧，学习如何使用 Python 组织和操作表中的数据，并有效地可视化数据。无需编程经验。

课程中给出的例子均来自不同环境的真实数据。并非所有数据都是数字，您还将使用文本数据和地图。虽然“数据科学”这个术语相对较新，但数据科学的基本思想却不是。该课程包括从拿破仑时代到现代的数百年的强大实例。在整个过程中，潜在的线索是数据科学是一种思维方式，而不仅仅是一种方法。课程还强调解释和交流，这是所有数据科学家的基本技能。

通过这套课程，你将学会：

如何使用计算来处理数据
Python 3 的基础知识以及如何将其用作数据分析工具
可视化的基本原理和方法

重采样思维

使用来自法律，医学和足球的真实案例，了解数据科学家如何根据可用的数据对未知数作出结论。通常，我们的数据是不完整的，但我们仍然希望得出关于世界的推论，并量化我们的结论中的不确定性。这被称为统计推断。在本课程中，学习统计推断的方法，并了解如何将它们应用于实际数据集。

通过这套课程，你将学会：

推理的逻辑和概念框架
重采样方法的目的和功能
样本量与准确度之间的关系
假设检验
Bootstrap 置信区间
A / B 测试和其他假设检验
如何解释结果

预测和机器学习

数据科学家的主要职责之一是根据数据做出可靠的预测。当可用的数据量很大时，如果某些分析可以自动化，则会有所帮助。机器学习是识别数据模式并使用它们自动进行未来预测或决策的一种方式。在这个数据科学课程中，您将学习机器学习的基本概念和元素。机器学习的两种主要方法是回归和分类。当试图预测数字量时使用回归；当试图选择要分配的类别时（例如，给定有关金融交易的信息，预测其是否具有欺诈性或合法性），将使用分类。

对于回归，这门课将教你如何测量两个变量之间的相关性，并计算当基础关系为线性时进行预测的最佳拟合线，同时还会教你如何使用自举法来量化预测中的不确定性。这些技术将用广泛的例子来说明。对于分类，您将学习 k- 最近邻分类算法，学习如何测量分类器的有效性，并学习如何将其应用于现实世界的任务。

课程将突出技术背后的假设，并将提供方法来评估这些假设是否良好。它还会指出导致过于乐观或不准确的预测的陷阱。

通过这套课程，你将学会：

相关性和均值回归现象
线性回归
量化不确定性并使用自举法生成 95％置信区间
使用 k 最近邻居算法进行分类
如何评估分类器的准确性

课程评价

Google

数据科学基础在如何建立数据科学的坚实基础方面是独一无二的，Google 很自豪能够在这一数据科学基础项目下为任何学习者提供平台，这是一个很好的方式，能够让他们在发现如何从数据中获得洞察力的同时应用学到的计算知识。

——谷歌教育与大学项目副总裁 Maggie Johnson

微软

在微软，我们已经在云端帮助伯克利革命性的 Data 8 课程的数据科学基础从初始试点扩展到数以千计的学生。edX 的数据科学基础课程在现实世界的数据背景下为计算和统计带来了独特的综合介绍，为全球人民在数字经济中建立自己的道路提供了便利。

——Joseph Sirosh，CVP，Cloud AI，微软

Cloudera

如同我们在 Cloudera 所说的，“伯克利的数据科学专业证书计划基础使你能够学习解开数据之谜所需的计算能力和统计数据。从普通的笔记本到云端的无缝平台中，学生将专注于学会如何处理来自关于世界的有趣数据的合理结论。”{"class":"right"}——Cloudera 首席战略官 Mike Olson

总结以上是对伯克利大学数据科学基础课的详细介绍，当然如果想深入了解，肯定还是要靠自己来探索，附上课程的报名链接：

https://www.edx.org/professional-certificate/berkeleyx-foundations-of-data-science#courses

再次提醒前去报名学习的同学：