本文为 4 月 22 日,清华大学计算机系副教授黄民烈、香侬科技创始人 & CEO 李纪为,在 PaperWeekly 最 in 强化学习 NLP 技术分享会中的内容实录。
1 黄民烈
清华大学计算机系副教授,博士生导师。研究兴趣主要集中在人工智能、深度学习、强化学习,自然语言处理如自动问答、人机对话系统、情感与情绪智能等。
已超过 50 篇 CCF A/B 类论文发表在 ACL、IJCAI、AAAI、EMNLP、KDD、ICDM、ACM TOIS、Bioinformatics、JAMIA 等国际顶级和主流会议及期刊上。曾担任多个国际顶级会议的领域主席或高级程序委员,如 IJCAI 2018、IJCAI 2017、ACL 2016、EMNLP 2014/2011,IJCNLP 2017 等,担任 ACM TOIS、TKDE、TPAMI、CL 等顶级期刊的审稿人。作为负责人或学术骨干,负责或参与多项国家 973、863 子课题、多项国家自然科学基金,并与国内外知名企业如谷歌、微软、三星、惠普、美孚石油、斯伦贝谢、阿里巴巴、腾讯、百度、搜狗、美团等建立了广泛的合作。获得专利授权近 10 项,其中 2 项专利技术授权给企业应用。
自然语言处理中的深度强化学习应用
以 Alpha GO/Zero 为代表的深度强化学习在许多应用中取得了前所未有的成功。演讲者将重点介绍深度强化学习在自然语言处理中如何处理非直接信号的弱监督学习问题,介绍如何利用有限的、弱的、非直接的监督信号实现学习目标。
包括几个方面的工作:仅依赖类别标记的监督信号,从无结构文本中的探索任务相关的文本结构(structure discovery);噪声文本数据中进行样本去噪(data denoising)以获得更好的关系抽取性能;在大型的在线系统中,如何利用用户的隐式反馈实现多场景的联合优化。
这些工作具有的共性是:在无直接监督信息、弱信号场景中,利用强化学习的试错和概率探索能力,通过编码先验或领域知识,达到学习目标。演讲者也将分享强化学习应用中的一些经验和教训。
>>>> 获取完整PDF和视频下载
关注“PaperWeekly”微信公众号,回复“20180422”获取下载链接。
2 李纪为
博士,香侬科技创始人 & CEO。本科毕业于北京大学生命科学学院,博士毕业于斯坦福大学计算机学院,研究领域为自然语言处理、深度学习。他是斯坦福大学计算机系历史上第一个三年取得博士学位的研究生。博士期间曾经在顶级会议 ACL、EMNLP、ICLR 等发表文章 20 余篇。2017 年创立 AI+Fintech 初创公司香侬科技,获得红杉资本数千万天使轮融资。
生成对话中的强化学习
在这个 Talk 中,嘉宾将讨论两个生成对话中强化学习的应用:
1. 通过模拟两个 Agent 的聊天获得更持久的、稳定的对话策略;
2. 将对抗学习引入到对话生成模型中:因为对抗学习判别器的反馈对于生成模型来说是不可求导的,所以只能通过强化学习的手段将判别器的反馈传递给生成模型,这里将重点讨论如何训练一个稳定的基于强化学习的对抗网络对话模型。
>>>> 获取完整PDF和视频下载
关注“PaperWeekly”微信公众号,回复“20180422”获取下载链接。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。