秦兵教授受邀在2021中国人工智能大会自然语言处理专题论坛做主题报告

2021 年 10 月 16 日 哈工大SCIR

10月12日，2021中国人工智能大会（CCAI 2021）在成都举行。本次大会以“智启非凡”为主题，以“强化自立、硬化创新、深化融合、优化协同”为目标，设置了8场主题报告、1场院士尖峰对话、9大专题论坛、6个同期活动。大会邀请政府部门、科研院所、高校、科技企业的领导、专家学者、企业家、技术领军者等各界代表进行最新成果交流，以产业共智启迪非凡未来。

2021中国人工智能大会开幕仪式

哈工大社会计算与信息检索研究中心主任秦兵教授受邀在自然语言处理专题论坛做关于《文本生成技术》主题报告。

秦兵教授简介

报告主要介绍了三部分内容，分别是文本生成任务概述、异构数据理解和可控文本生成。在第一部分中，给出了文本生成任务的目标和主要场景，可以简单概括为文本到文本的生成、结构化数据到文本的生成和图像数据到文本的生成，并简述了基于编码器和解码器的通用文本生成框架。

图1 主要讲解内容

由此也引出了第二部分如何来针对不同模态的输入进行编码，其中文本建模主要采用序列化的编码方式。针对篇章级或者对话领域的摘要任务，主要是通过引入篇章结构信息加以处理。

图2 对话中的篇章关系

针对结构化表格数据建模问题，介绍了三元组层次化编码方式和引入预训练模型的序列化编码方式，并通过加入表格重构损失保留输入数据的结构化特征（TableGPT）。

图3 TableGPT的表格重构

在图像数据编码过程中介绍了Image Caption、Visual Storytelling和Video Summarization三个任务，以及编码图片和视频的相同之处与不同之处。

在第三部分中主要介绍了如何对解码端进行长度控制、风格控制和逻辑控制，分别通过修改Transformer的Position Embedding、预训练模型解码偏置和动态Coverage策略，通过上述方法可以有效的对生成文本实现控制，提升文本生成技术的可用性。

图4 动态 Coverage 策略

最后，对文本生成领域进行了展望，包括如何有效约束预训练生成模型，保证事实一致性；如何提升长文本生成的逻辑一致性，保证前后统一和如何改进自动文本生成评价标准，降低人工评价的主观性等。

本期责任编辑：冯骁骋

本期编辑：彭　湃

哈尔滨工业大学社会计算与信息检索研究中心

理解语言，认知社会

以中文技术，助民族复兴

登录查看更多

相关内容

秦兵

关注 1

秦兵，CAAI情感智能专委会副主任哈尔滨工业大学计算学部长聘教授。主要研究方向为自然语言处理、知识图谱构建、情感计算及文本生成等。科技部科技创新2030-“新一代人工智能“重大项目管理专家组成员，中国中文信息学会理事。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单”和“福布斯中国2020科技女性榜”。

数据与机器学习，人工智能报告

专知会员服务

100+阅读 · 2022年2月21日

哈工大SCIR 14篇长文被ACL 2021主会/Findings和IJCAI 2021录用

专知会员服务

56+阅读 · 2021年5月10日

白皮书 | 工业智能前沿报告，35页pdf

专知会员服务

129+阅读 · 2021年3月9日

知识增强的文本生成研究进展

专知会员服务

100+阅读 · 2021年3月6日