多次参加数学竞赛、恶补计算机知识进入实验室，这位清华学子最终拿下世界顶级计算机学术奖项

多次参加数学竞赛、恶补计算机知识进入实验室，这位清华学子最终拿下世界顶级计算机学术奖项 | 专访

2020 年 7 月 17 日 学术头条

只要相信自己，你就会知道如何生活。——《浮士德》

高信龙一，他是一位清华大学计算机系的研究生，在 SIGDIAL 2020 会议上，作为清华 COAI 小组的一员，帮助自己的队伍拿到了 SIGDIAL2020 最佳论文。SIGDIAL 是由 ISCA（International Speech Communication Association，国际语言交流协会）和 ACL（Association for Computational Linguistics，计算机语言协会）共同举办的世界级顶级学术会议。

高信龙一的论文 Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation，这是一篇关于提高完整对话系统评价的论文。

现如今，越来越多的学者加入到了对话系统的研究与开发工作之中，这使得对话系统在单轮评测中有着极为优秀的表现。然而对话系统是多轮交互的，单轮结果一旦出错，比如偏离用户本意，那么在这之后的对话系统都将跟着一起出错。这也是为什么对话系统需要一个妥善的评价系统。

通过高信龙一的验证，他得出了三条结论：

（1）使用不同组件级别的细粒度监控信号训练的 pipeline 对话系统通常比使用粗粒度标签训练的联合或端到端模型的系统获得更好的性能。

这是由于对话系统的细粒度监控给整个系统决策带来的提升，促使系统能够更好的预测用户意图，并在对话期间采取相应的措施。建议良好的语用分析时，这种对系统整体决策的帮助是必不可少的。

（2）单轮、模块内的评估结果并不总是与多轮、系统级的整体性能一致。

为了准确评估每个模块的有效性，应该从实际角度出发，采用系统化的多轮评估。论文指出，应将特定模块的建议模型组装成一个完整的系统，并通过标准化对话平台与模拟或人工用户一起评估系统。

（3）尽管模拟用户和真实用户之间存在差异，但模拟评估仍然是昂贵的人工评估的有效替代，特别是在开发的早期阶段。

模拟评估可以很好地评估面向目标的对话系统，并显示出与人类评估的适度相关性，但它明显高估了系统在人类交互中的性能。因此，需要设计更好的用户模拟器，使其更接近人类。

模拟器应该能够产生自然和多样的反应，同时能够在复杂的对话中改变目标，等等。模拟器本身可能会出错，从而导致对性能的错误估计。然而，即使有人工评估，对话系统也需要处理更复杂和不确定的情况。而且模拟器和人类用户之间也存在差异，其相关度约为 50% 到 60%。可模拟评估仍然是昂贵的人类评估的有效替代方案。

高信龙一参加 AAAI 2019

起初，高信龙一讲这篇论文投稿到了 ACL 的短论文上，不过在随后的一段日子里，他又将其撤稿。直至通过老师和实验室成员的帮助进行修改，最终我们才能够在 SIGDIAL 2020 上看到这篇对现代对话系统诟病一针见血的最佳论文。

这篇论文一共 60 余篇的引用，更重要的是，除了一些重要的现代学术发现，高信龙一还引用了 2000 年以前的计算机丰碑式论文，如荒木正浩发表于 1996 年的论文《Automatic evaluation environment for spoken dialogue systems.》。

高信龙一告诉学术头条， 这些论文在飞速发展的计算机技术面前已经算是古董，但是其中提到的思路仍然对算法开发有着重要的帮助。

既然提到了对话系统，就不得不引入高信龙一与微软合作的实验论文《ConvLab: Multi-Domain End-to-End Dialog System Platform》。论文中描述了一个多领域端到端的对话系统，其命名为 ConvLab。它一方面提供一些可复用的组件来帮助实验人员快速实验，另一方面还可基于它在通用环境中对比大量不同方法。另外，ConvLab 还提供了一些完全标注的数据集和一些相关的预训练模型。

ConvLab 允许研究人员自动训练对话模型、创建和评估任务型对话机器人。这样的开源系统在许多人工智能相关的研究取得突破的过程中起到了重要作用，比如 Moses、HTK 和 CoreNLP 等都分别被广泛用于机器翻译、语音识别和自然语言处理。

由于以往研究中使用的方法和评价指标都不同，在相同条件下进行严格的对比是不可行的。这就使得 ConvLab 成为了第一个对话研究平台，涵盖了一系列可训练的统计模型和全注释数据集，不同于以前的工具箱，ConvLab 的重点主要集中在组建各种框架及搭配的系统上。

可以看出，即便是不同领域的研究，但是在研究内容上仍然保持着强相关性。只有开始探索的那一刹那，才能发现到底还有哪里不足。高信龙一在研究中发现了目前没有完整的评价手段，于是着手去开发开源的对话系统平台，一步一步地开垦新的田野。

高信龙一参加 EMNLP2019

进入清华之前，高信龙一和计算机的关系并不大，他是一位多次参加数学竞赛的学生，同样也在该领域取得了很好的成绩。然而随着学历的增加，面临他的便是选择属于自己的专业。

高信龙一选择了清华大学的计算机系，他告诉学术头条，虽然投入了大量的时间用于钻研数学，然而他清楚自己的能力界限，再加上对计算机有着独特的兴趣爱好，于是选择进入了计算机系。

在大一时期，高信龙一没有直接进入计算机实验室，而是报名了像是足球社、留学生交流社这样的社团。但是他心里明白，相较于他的同学们，他自己没有在计算机领域的先天优势。只能通过私下阅读论文的方式来进行恶补。一年之后，随着自身利用课外时间的积累，他发现自己已经具备了着手于研究和探索的信心，这让他产生了加入清华大学计算机系实验室的想法。

清华大学计算机系的实验室有很多，有热门的，也有冷门的。看着同学们相继报名了较为热门的实验室，高信龙一没有怀揣着多么复杂的想法，找到了一个感兴趣且又没那么多人的实验室——清华大学计算机系黄民烈教授团队的交互式人工智能实验室。他用一种自嘲的口吻说，“当时交互实验室人少，更有机会得到锻炼，我就去了。”

当然，即便是私下阅读了大量的论文，高信龙一也对计算机基础深有自知。他选择跟随学姐，做一些 baseline 层面的实现与分析工作，即使相对后面的研究来说这种工作还处于初级阶段，不过对于高信龙一，这些工作所积累的知识是十分宝贵的。

高信龙一在实验室中主要负责的领域是对话系统、推荐系统和强化系统。人机交互的过程中，预言交互是一种重要的交互方式。这种交互方式会让用户产生自己是在跟真人进行交流的错觉，不过想要达到该程度，需要对话系统更加可靠。

除了对话系统，高信龙一在其他领域依然有所建树。他曾在 WWW 2019 上发表了论文Aggregating E-commerce Search Results from Heterogeneous Sources via Hierarchical Reinforcement Learning。这是一篇对电商搜索结果进行聚合的算法研究，利用子任务排序的方法先呈现所有源的聚合，再从用户的反馈中进行学习，从而提高搜索性能。

清华是个养人的地方，高信龙一是一个直到上了大学才开始了解计算机的人，却在本科和研究生时期实现了远超同龄人的成就。伴随大环境浓厚的学术气息，再加上自身的勤奋和努力，以及在研究领域的钻研，促成了高信龙一的今天。