【图文实录】创新工场首席科学家、澜舟科技创始人周明：认知智能的进展和思考

认知智能

大家好，今天我和大家分享一下认知智能的进展和思考。

人工智能深深地改变了人类生活。从应用上看，我们现在已经能实现人工智能在自动驾驶、安防、自动翻译、医疗诊断、个人助理等任务上的应用。这些应用背后依赖图像识别、语音识别、自然语言处理、知识图谱、搜索和推荐等技术。

数据、算法、计算构成人工智能的三要素，三者缺一不可。

继感知智能之后，以 NLP 为核心技术的认知智能崛起，将推动产业发展。

神经NLP

前面提到自然语言处理可以做很多应用，下面介绍神经自然语言处理的核心技术。

神经网络NLP的主要技术

用神经网络做NLP要解决一些核心问题，首先是词怎么表示。我们实际上是用多维向量来代表一个词的语义。词的语义怎么学呢？2013年Mikolov提出了一个叫词嵌入的技术。他利用一个大规模的语料库去学习每一个词的多维向量表示。学习目标是利用周围的词去预测当前词，或者利用当前词去预测周围的词。

进一步地，我们想得到一个句子的多维向量表示，具体的方法有：把句子中每个单词的向量叠加起来，或者用卷积/循环神经网络进行句子建模。获得句子的向量表示之后，我们可以做句子间的转换任务，比如机器翻译（把中文句子转为英文句子）、自动文摘（把文档转为摘要）等。这种转换可以使用encoder-decoder模型架构实现。

为了进一步提高转换的效果，人们提出了attention 模块，在转换的时候区分哪些词更重要，哪些词不重要。在此基础上提出的 transformer 模型显著提高了机器在翻译等任务上的表现。

下面我们快速回顾一下神经网络原理。神经网络有一个输入层、一个输出层，中间还有一些隐层。每个隐层结合了前面的所有的输入信号，并进行加权，输入激活函数中得到一个结果，再输入下一层。最后走到输出层后，会得到一个预测结果，与正确结果进行比对，得到损失函数。然后将损失的梯度回传到整个神经网络，进行参数的更新。

自然语言处理的预训练模型

将神经网络原理和一些神经网络架构结合，我们可以进行大数据的预训练。预训练需要大规模的语料库，让模型在其基础上进行自监督学习，学习每个词的语义向量表示。得到预训练模型后，我们可以结合具体的下游任务对模型进行一些微调，使其适配下游任务的要求。用这一套技术，几乎可以解决所有语言、所有场景下的所有任务。

预训练模型取得了巨大的突破，在一些任务上甚至超过了人类的表现。

为什么要用预训练模型呢？第一个是因为预先训练的模型嵌入了与任务无关的一般知识，所有语法知识和语义知识都被隐式编码了；第二个是我们可以将预训练模型学到的知识迁移到下游任务，面对一些缺少数据的任务和语言，预训练模型也能管用；第三是预先训练的模型在自然语言理解和生成任务上取得了 SOTA 结果；最后是因为预训练模型可以为各种应用提供可扩展的解决方案。