2021年7月8日上午9:00,哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)邀请到了加州大学圣地亚哥分校胡志挺助理教授为我中心全体在校师生带来学术讲座。
本次“赛尔讲坛”在哈尔滨工业大学活动中心举行,胡志挺助理教授的报告主题为《Text Generation with No (Good) Data: New Reinforcement Learning and Causal Frameworks》,由我中心赵森栋助理教授主持。
文本生成系统,尤其是基于大规模预训练语言模型的文本生成系统,越来越多地投入了实际应用。然而,通常的基于最大似然 (MLE) 的训练或微调方法需要无噪声的文本示例来做监督。这种方法不适用于许多新出现的问题,其中我们只能访问嘈杂或弱监督数据,或具有虚假相关性的有偏见的数据,或根本没有数据。此类问题包括为大规模语言模型生成文本提示(Prompt)、生成对抗性攻击以及各种可控生成任务等。在本次讲座中,胡志挺老师介绍了新的文本生成模型和学习框架,包括:(1)一种新的使用任意奖励函数进行训练的强化学习(RL)公式。基于Soft Q-Learning的最新进展,该方法缓解了先前稀疏奖励和巨大动作空间的基本问题,从而产生了一种简单高效的算法,并在各种问题上取得了良好的效果。(2)一个用于可控生成的因果框架,从规则限制的因果的角度为文本建模提供了一个新的视角。它使我们能够使用丰富的因果关系工具(例如干预、反事实)消除从训练数据中继承的生成偏差。其在学习无偏可控生成模型和消除现有预训练语言模型的偏差方面有着显著改进。
讲座过后,我中心老师同学向胡志挺教授请教了偏差消除等相关问题,胡志挺教授对这些问题都给予了耐心细致的解答,大家都受益匪浅。
胡志挺,加州大学圣地亚哥分校Halicioglu数据科学研究所助理教授,亚马逊访问研究学者。他本科就读于北京大学计算机科学专业,随后于卡内基梅隆大学取得机器学习博士学位。主要研究方向是机器学习、自然语言处理、ML系统、医疗保健和其他应用领域。尤其对训练具有所有类型经验的AI的原则和方法感兴趣,如数据实例 (NeurIPS)、结构化知识 (ACL、NeurIPS)等。他的研究获得了ACL2019最佳演示提名和ACL2016杰出论文奖。
编辑:钟蔚弘,彭湃,杜佳琪,朱文轩,冯晨,牟虹霖,张馨,王若珂,高建男
长按下图即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号『哈工大SCIR』。