入门 | 从遗传算法到强化学习，一文介绍五大生物启发式学习算法

会员服务 ·

入门 | 从遗传算法到强化学习，一文介绍五大生物启发式学习算法

2018 年 1 月 17 日 机器之心

选自Medium

作者：Luke James

机器之心编译

参与：黄小天、路雪

本文是作者献上的一部「野外纪录片」，介绍了五个直接受大自然启发而产生的人工智能算法：人工神经网络、遗传算法、集群智能、强化学习和人工免疫系统。

在当今技术背景之下，人工智能的发展催生出很多美好事物。人类花费数十年研究如何优化数学计算以使复杂的学习算法运转起来，此外，我们还已经超越自身的物种，正努力创造新一代智能体。大自然及其所包含的一切，深深地植根于人工智能的运作之中，而这正是本文的主题。

David Attenborough 的野生动物纪录片令人震撼，他们通过高清晰的细节记录了地球上诸多物种的行为和特征，如何融入自然生态系统，并协同共存使得自然生机勃勃——使其成为「地球」。我虽然不是 David Attenborough，但是也要献上一部「野生动物纪录片」，介绍那些直接受大自然启发而产生的人工智能算法。在此之前，我首先介绍两个算法概念：搜索/路径寻找和预测建模。

搜索（路径寻找）算法

搜索算法本质上是一种程序，被设计用来发现通往目标的最优/最短的路径。例如，旅行推销员问题是一个典型的搜索优化问题，其中包含给定的一系列城市及其之间的距离。你必须为推销员找到最短路径，同时每个城市只经过一次，从而最小化旅行时间和开销（确保你回到起点城市）。这一问题的真实应用是运货车。假设伦敦有 100 个人在线下单，所有箱子要装进货车，快递员现在必须计算最高效的路线（平衡距离/所花费的时间），以便从仓库交付这些包裹（最终还要返回仓库），确保公司把时间和金钱消耗降到最低。

预测建模算法

如今，有关预测建模的炒作是最多的。全世界的数据科学正在强烈呼吁「神经网络」，而像谷歌这样的大公司也正努力通过人工智能及其各种不同变体解决世界上的难题。预测建模本质上借助统计学来预测结果。你经常听到数据科学家试图解决两类预测建模问题：回归和分类。回归是找到两组变量关联性的暗黑艺术；分类是确定数据集属于不同组的概率的过程。

5 个生物启发式学习算法

1. 人工神经网络

前馈神经网络——最基本类型的神经网络

算法类型：预测建模
生物启发：认知脑功能（神经元）
用例：情感分析、图像识别/检测、语言修正、机器人

让我们从最基础的人工智能算法开始。神经网络是人工智能子范畴机器学习的一部分。神经网络的设计目的是在神经元层面上模拟大脑功能，通过轴突和树突的交互在系统之中把信息传递过一系列的层，生成一个预测性的输出。每个层提供一个数据表征的额外层，并允许你建模最复杂的问题。

神经网络很可能是使用最为广泛的机器学习算法，并且是目前为止数据科学和深度学习的最热趋势。这一概念最初起始于 1958 年的感知机，后来 Geoffrey Hinton 完善了它，并在谷歌、Facebook 等公司中大为流行。神经网络可用于解决一系列问题，比如自然语言处理、视觉识别。这一监督式学习算法可以解决回归和分类问题，其实例可在常规的消费产品中发现，比如智能手机和智能家居设备。

2. 遗传算法

遗传算法中的个体繁殖

算法类型：搜索/路径寻找
生物启发：适者生存/进化（细胞繁殖）
用例：数据挖掘/分析、机器人、制造/设计、流程优化

遗传算法在连续的一代代个体之间采取适者生存的进化方法，以期解决搜索问题。每一代包含一群模拟 DNA 染色体的字符串。群体中的每个个体表征搜索空间中的一点，因此每个都是可能的候选方案。为了提升方案数量，我们使个体经历一次进化过程。

群体之中的每个个体将会竞争资源和配偶。
相比于表现差的个体，每次竞争中的最成功个体将（通常）产生更多个体。
来自更多「理想」候选的基因在群体中传播，因此这些优秀的父母往往会产生潜力更大的后代。

3. 群集／集群智能（SWARM/COLLECTIVE INTELLIGENCE）

蚁群优化算法示例——一种集群智能算法

算法类型：搜索／路径寻找
生物启发：蚁群／鱼群／鸟群
用例：机器人、视频游戏 AI、制造业、路径规划

蚁群优化（Ant Colony Optimisation）和粒子群优化（Particle Swarm Optimisation）是两种最广为人知的「集群智能」算法。从基础层面上来看，这些算法都使用了多智能体。每个智能体执行非常基础的动作，合起来就是更复杂、更即时的动作，可用于解决问题。

蚁群优化（ACO）与粒子群优化（PSO）不同。二者的目的都是执行即时动作，但采用的是两种不同方式。ACO 与真实蚁群类似，利用信息激素指导单个智能体走最短的路径。最初，随机信息激素在问题空间中初始化。单个智能体开始遍历搜索空间，边走边洒下信息激素。信息激素在每个时间步中按一定速率衰减。单个智能体根据前方的信息激素强度决定遍历搜索空间的路径。某个方向的信息激素强度越大，智能体越可能朝这个方向前进。全局最优方案就是具备最强信息激素的路径。

PSO 更关注整体方向。多个智能体初始化，并按随机方向前进。每个时间步中，每个智能体需要就是否改变方向作出决策，决策基于全局最优解的方向、局部最优解的方向和当前方向。新方向通常是以上三个值的最优「权衡」结果。

4. 强化学习

强化学习环境中的智能体行为

算法类型：预测建模
生物启发：经典条件反射
用例：视频游戏、自动驾驶汽车、生产线软件、财务系统

强化学习受到心理学和经典条件反射的启发，为智能体的积极动作给予正值反应。学习强化学习的概念通常比学习流行的经典条件反射示例「巴甫洛夫的狗」更加简单。该示例是 1890 年代俄国心理学家伊万·巴甫洛夫执行的研究，旨在观察狗对食物的唾液分泌。详细解释可参阅：https://www.simplypsychology.org/pavlov.html。本质上，如果强化学习智能体执行了一个好的动作，即该动作有助于完成要求任务，则它会得到奖励。智能体将使用策略来学习在每一步中最大化奖励。将原始输入应用到算法中使得智能体开发出自己对问题的感知，以及如何以最高效的方式解决问题。

RL 算法常常与其他机器学习技术（如神经网络）一同使用，通常称为深度强化学习。神经网络通常用于评估 RL 智能体作出某个决策后所获得的奖励。DeepMind 在这方面取得了很大成果，它使用深度 Q 学习方法解决更通用的问题（如利用算法的能力玩 Atari 游戏、战胜围棋世界冠军）。DeepMind 现在在研究更复杂的游戏，如星际争霸 2。

Q 学习是强化学习算法的无模型版本，可用于对任意有限马尔可夫决策过程寻找最优的动作选择策略。程序初始化时，每个动作-价值对的 Q 值由开发者定义，并由 RL 算法在每个时间步进行更新。下图展示了 Q 值的更新公式。

Q 学习值更新公式

5. 人工免疫系统

人工免疫系统组件

算法类型：预测建模
生物启发：免疫系统
用例：安全软件、自动导航系统、调度系统、故障检测软件

免疫系统通过免疫应答机制保护身体免受病原体等的侵袭。人工免疫系统（AIS）是一种适应性系统，受启发于理论免疫学和免疫功能在问题求解中的应用。AIS 是生物启发计算和自然计算的分支，与机器学习和人工智能联系紧密。以下算法常用于 AIS：

克隆选择
树突状细胞
负选择
人工免疫识别

和生物免疫系统一样，AIS 能够将所有「细胞」分类为「自己」或「非己」细胞。智能的分布式任务组（distributed task force）用于对所有细胞执行动作。免疫系统中最重要的两种细胞是 T 细胞和 B 细胞。T 细胞有三种类型：激活 B 细胞、摧毁入侵者、调节机体免疫问题。B 细胞生成抗体。人工免疫系统通常用于监控入侵检测，从而抵御网络攻击，通常被整合进企业级软件中。与上文提到的其他算法不同，这方面的在线免费学习资料较少，而且可能也是发展最慢的。

本文介绍了 5 种受生物启发的技术。影响 AI 系统的生物启发算法还有很多，欢迎分享。