作者:Francesco Corea博士是《福布斯》杂志的专栏作家,是解读复杂性的科学家和技术投资者,主要关注对社会影响很大的垂直领域(比如生命科学、能源和强人工智能)的科学驱动型公司。
我密切关注AI领域已有一段时间,意识到有好多分类、类别、生态图和信息图用来表示和跟踪思考AI的不同方式。然而,我不是非常赞同那些分类做法,主要是由于我往往认为,将动态的数据点分类成预定的固定框这个做法常常抵消了拥有这样一种“清晰”的框架具有的好处。
我还认为,本文不光适用于那些刚进入这个领域、想大致了解这个话题的复杂性和深度的人,还适用于那些比较有经验,已有参考点,并围绕特定的技术展开新讨论的人。
接下来就是努力绘制一个架构,以便了解AI方面的知识,并密切关注新动向,进而了解关于这个话题的之前就有的知识,以便寻找另外的信息,最终创建关于AI的新知识。我称之为AI知识图(AIKM)。
AI知识地图。我与战略创新咨询公司Axilo一起制作了该图,用于直观地显示在其Chôra平台上的活动。
在两条轴上,你会找到两个大组,即AI范式(AI Paradigms)和AI问题域(AI Problem Domains)。AI范式(X轴)是AI研究人员用来解决与AI有关的特定问题的方法(包括最新的方法)。另一方面,AI问题域(Y轴)是指AI可以解决的问题类型。从某种意义上来说,它还表明了AI技术的潜在能力。
因此,我列出了以下几种AI范式:
基于逻辑的工具:用于表示知识和解决问题的工具。
基于知识的工具:基于本体(ontology)的工具以及由概念、信息和规则组成的庞大数据库。
概率方法:让代理可以在不完整的信息场景下行动的工具。
机器学习:让计算机可以从数据中学习的工具。
体验智能:工程工具箱,假设身体(或至少一部分功能,比如运动、感知、交互和可视化)是更高级的智能所必需的。
搜索和优化:允许许多可能的解决方案进行智能搜索的工具。
这六种范式还分属三种不同的宏观方法,即符号法、亚符号法和统计法(由上面的不同颜色加以表示)。简而言之,符号方法表明人类智能可以简化为符号操作,亚符号方法是指事前并不提供特定的知识表示,而统计方法基于解决特定子问题的数学工具。
纵向轴列出了用AI来解决的问题,这里的分类很标准化:
推理:解决问题的能力
知识:表达和理解世界的能力
规划:制定和实现目标的能力
沟通:理解语言和沟通的能力
感知:将原始的感官输入(比如图像和声音等)转换成实用信息的能力。
方框的图案将技术分为两组,即狭义的应用和广义的应用。用词是有目的的,但可能看起来有点误导人,稍后容我解释。对于任何刚入门AI的人来说,了解弱/狭义AI(ANI)、强/通用AI(AGI)和超AI(ASI)之间的区别至关重要。为了阐述清楚,ASI只是最新的推测,General是研究人员的最终目标(“圣杯”),而狭义AI是我们今天实际拥有的,即一系列无法处理超出其适用范围的任何问题的技术(这是它与AGI的主要区别)。
图中所用的两种类型的线(实线和虚线)明确指出了区别,帮助你在阅读其他入门的AI材料时多一点信心。不过与此同时,这里的差异概述了只能解决特定任务的技术(通常比人类更好,即狭义的应用)和解决当前或未来的多项任务,并与世界互动的其他技术(比许多人更好,即广义的应用)。
最后,让我们看看图本身上面有什么。在该图上,不同类别的AI技术得到了表示。注意,我有意不具体给出特定算法的名称,而是将它们分类成几大组。我也没有给出针对什么行、什么不行的价值评估,只是列出了研究人员和数据科学家可供利用的技术。
那么如何解读该图?让我举两个例子。如果你看一下自然语言处理,它包括这样一类算法:结合基于知识的方法、机器学习和概率方法来解决感知领域的问题。但与此同时,如果你看一下基于逻辑的范式和推理问题之间交叉处的空白区,可能想知道为什么那里没有技术。该图所要传达的不是没有可填补空白区的方法,而是人们对待推理问题时,更喜欢使用机器学习。
下面列出几种技术:
机器人流程自动化(RPA):这种技术通过观察用户执行特定任务来提取要执行的一系列规则和动作。
专家系统:这种计算机程序拥有硬编码规则,可模拟人类决策过程。模糊系统是基于规则的系统的一个具体例子,可将变量映射到0到1之间的连续值,这与得出0/1结果的传统数字逻辑恰恰相反。
计算机视觉(CV):获取和解读数字图像的方法(通常分为活动识别、图像识别和机器视觉)。
自然语言处理(NLP):处理自然语言数据的子领域(该领域包括三大块,即语言理解、语言生成和机器翻译)。
神经网络(NN或ANN):这一类算法松散地模仿人类/动物大脑的神经元结构,在无需明确指示怎么做的情况下改善性能。NN的两个众所周知的子类是深度学习(有多个层的神经网络)和生成式对抗网络(GAN,相互训练的两个网络)。
自治系统:这个子领域介于机器人和智能系统之间的交叉点(比如智能感知、灵巧物体操纵和基于计划的机器人控制等)。
分布式AI(DAI):这一类技术通过将问题分发给彼此交互的自治“代理”来解决问题。多代理系统(MAS)、基于代理的建模(ABM)和群体智能是该子集的三个有用的规范,其中集体行为来自分散的自组织代理之间的交互。
情感计算:这个子领域处理情绪识别、解读和模拟。
进化算法(EA):这是进化计算这个更广泛的计算机科学领域的一个子集,进化计算利用受生物学启发的机制(比如突变和繁殖等),寻找最佳解决方案。遗传算法是进化算法中最常用的子集,这种搜索启发法遵循自然选择过程来选择“最适合”的候选解决方案。
归纳逻辑编程(ILP):这个子领域利用形式逻辑来表示事实数据库,并生成源自这些数据的假设。
决策网络:这是最知名的贝叶斯网络/推理的延伸,它通过一个图(又叫有向无环图)表示一组变量及其概率关系。
概率编程:这种框架并不强迫你对特定变量进行硬编码,而是处理概率模型。贝叶斯程序合成(BPS)在某种程度上是一种概率编程,其中贝叶斯程序编写新的贝叶斯程序(而不是人类编写,跟更广泛的概率编程方法中一样)。
环境智能(AmI):这种框架要求物理设备融入数字环境,以便在受到外部刺激(通常由人类动作触发)后,察觉、感知和响应情境感知信号。
为了解决某个特定问题,你可以采用一种或多种方法,这反过来意味着采用一种或多种技术,因为它们中的许多技术不是相互排斥而是互为补充的。
教计算机如何学习又不需要对它明确编程,这是一项艰巨的任务,需要几种技术来处理多种细微复杂的情形;尽管这张知识图远非完美,但它至少首次尝试弄清楚凌乱的AI生态圈。
我明白这里出现了一个显著的帕累托原则(Pareto),即目前的努力和结果中80%(如果不是更多)有赖于该图中所示的20%的技术(即深度学习、NLP和计算机视觉),不过我也确信,展示全貌有助于研究人员、初创公司和投资者。
欢迎大家对我制作的这第一个版本的AI知识库发表意见,我打算采取另外两个步骤:一个是另外做一个层,表示AI面临的挑战的类型(比如记忆问题和灾难性遗忘、迁移学习以及借助零和一次性学习从更少的数据中学习),以及什么技术可用于克服该特定的问题。另一个是运用透镜来观察不同的技术;不是剖析它们所解决的问题,而是它们所带来的问题(比如道德问题、数据密集型问题、黑盒子及可解释性问题等)。
AI 行业交流群欢迎加入,群主微信:aclood(备注任职单位+职位,否则不予通过)
相关阅读:
谁会从 AI 上赚到钱:国家、芯片商、云服务、解决方法商、算法服务商、AI 企业用户 ?
AI 框架使用排行:TensorFlow、Scikit Learn、IBM Watson、Spark-MLib、Keras
因暴风引发 IDC 停电导致 AWS 瘫了,为今后 AI 运行带来预警