10月12日,2021中国人工智能大会(CCAI 2021)在成都举行。本次大会以“智启非凡”为主题,以“强化自立、硬化创新、深化融合、优化协同”为目标,设置了8场主题报告、1场院士尖峰对话、9大专题论坛、6个同期活动。大会邀请政府部门、科研院所、高校、科技企业的领导、专家学者、企业家、技术领军者等各界代表进行最新成果交流,以产业共智启迪非凡未来。
2021中国人工智能大会开幕仪式
哈工大社会计算与信息检索研究中心主任秦兵教授受邀在自然语言处理专题论坛做关于《文本生成技术》主题报告。
报告主要介绍了三部分内容,分别是文本生成任务概述、异构数据理解和可控文本生成。在第一部分中,给出了文本生成任务的目标和主要场景,可以简单概括为文本到文本的生成、结构化数据到文本的生成和图像数据到文本的生成,并简述了基于编码器和解码器的通用文本生成框架。
图1 主要讲解内容
由此也引出了第二部分如何来针对不同模态的输入进行编码,其中文本建模主要采用序列化的编码方式。针对篇章级或者对话领域的摘要任务,主要是通过引入篇章结构信息加以处理。
图2 对话中的篇章关系
针对结构化表格数据建模问题,介绍了三元组层次化编码方式和引入预训练模型的序列化编码方式,并通过加入表格重构损失保留输入数据的结构化特征(TableGPT)。
图3 TableGPT的表格重构
在图像数据编码过程中介绍了Image Caption、Visual Storytelling和Video Summarization三个任务,以及编码图片和视频的相同之处与不同之处。
在第三部分中主要介绍了如何对解码端进行长度控制、风格控制和逻辑控制,分别通过修改Transformer的Position Embedding、预训练模型解码偏置和动态Coverage策略,通过上述方法可以有效的对生成文本实现控制,提升文本生成技术的可用性。
图4 动态 Coverage 策略
最后,对文本生成领域进行了展望,包括如何有效约束预训练生成模型,保证事实一致性;如何提升长文本生成的逻辑一致性,保证前后统一和如何改进自动文本生成评价标准,降低人工评价的主观性等。
理解语言,认知社会
以中文技术,助民族复兴