编者按:True Influence数据科学家Venkat Raman介绍了自己进入数据科学领域、成为数据科学家的秘诀——费曼技巧。
许多博客和文章在谈论如何成为数据科学家这一话题。通常会给出这样一个列表:
学习描述性统计、假设检验、概率
了解机器学习算法的类型——监督学习、无监督学习
学习Python、R、SAS、SQL
基于Python、R、SAS应用机器学习技术
学习数据可视化
虽然上述途径没什么问题,但仅仅如此不足成为一个高效的数据科学家。现在你可能会问为什么?在回答这一问题之前,我想先谈谈“费曼技巧”。
这一技巧的命名来源于伟大的理论物理学家理查德·费曼(Richard Feynman)。他能以非凡的技巧使用朴素的外行用语解释最复杂的科学话题,因此他有一个绰号“大解释者”(The Great Explainer)。
第一步: 收缩你觉得难以把握的主题。了解这一主题。
第二步: 假装你正教某人这一主题,并且使用非常简单的术语。通过这样的方式向自己解释这一主题。
第三步: 尝试一个例子,或者演示它是如何工作的。
第四步: 评估你对这一主题的知识,如果仍有一些概念不清楚,学习更多关于这些概念的内容,并重复第2至4步。
完成这一过程之后,你会发展出对该主题比刚开始时更深的理解。这就是“费曼技巧”的魔法。
数据科学领域需要持续的学习。其中一些概念也许极难理解。费曼技巧帮助某人理解原本认为非常难的主题。
只有当关键决策者认识到其中的价值,数据分析产业才能生存。决策者是
你的老板 如果你从事的是面向企业内部的分析工作。
客户 如果你从事分析咨询/服务业。
VC(投资人) 如果你正为你的“AI初创企业”寻求投资(募集资金的第一步是用AI称呼它 :P)
大多数情况下,你的老板/客户/投资人可能并不具备数据分析的背景,或者对最新数据分析主题的深刻理解。使用尽可能简单的语言向他们解释数据分析概念,使他们看到你的提议的价值,这是你的责任。
所以,底线是练习费曼技巧,免得自己像呆伯特一样,天天面对老板的折磨 :P
译文:
老板: 我们有一个巨大的数据库,里面装满了客户行为信息。(图一)
呆伯特: 棒极了。我们可以使用非线性数学和数据挖掘技术优化我们的零售渠道。(图二)
老板: 如果你说的是垃圾推广,那这个会议很成功。
译文:
老板: 我们的云中的大数据,是否为我们提供了可执行的分析(actionable analytics)?(图一)
呆伯特: 是的,数据显示一旦你学了新术语,我的生产力就下跌了。(图二)
老板: 也许内存内计算(in-memory computing)能加速你的应用。(图三)
呆伯特: 下跌,下跌,下跌。(图三)
在我的MBA课程中,我是唯一具备统计背景的人,我总觉得,当我向朋友们解释统计概念时,我对统计概念的理解加深了。他们的赞许(很容易地学到了这个概念),鼓励了我,也让我感到自己有责任彻底地学习这些概念,以免教给他们错误的知识。
彻底学习的自信使我得以进入数据科学领域。即使现在我仍然使用费曼技巧来更好地把握那些初看起来很费解的主题。
好吧,我必须承认,我之所以写本博客的第一篇文章Recommender Engine(推荐引擎)是为了更好地理解推荐系统如何工作。尽管我不能说自己是推荐系统的专家,我确信我以直观的方式学到了某些东西。
类似的,我最近的文章How to Dockerize an R shiny app- Part 1(如何将R应用纳入docker容器)尝试通过乐高积木解释docker。
由于数据科学领域有利可图,许多人希望进入这一领域。那些不具备统计/数学背景而成功进入这一领域的人,有时会受冒名顶替症候群的困扰。正如上图刻画的那样,“最容易被愚弄的人是你自己”。克服冒名顶替症候群的唯一方法是真正深刻地理解数据科学的众多概念。
如果你喜欢我的文章,欢迎点赞。也欢迎留言你对文章的意见。