7 Papers & Radios |1.6万亿参数语言模型;IJCAI 2020奖项公布

2021 年 1 月 17 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周的重要论文包括谷歌大脑提出的拥有 1.6 万亿参数的语言模型 Switch Transformer,以及 IJCAI 2020 各奖项论文。


目录:
  1. Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking

  2. Online 3D Bin Packing with Constrained Deep Reinforcement Learning

  3. Synthesizing Aspect-Driven Recommendation Explanations from Reviews

  4. A Multi-Objective Approach to Mitigate Negative Side Effects

  5. SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY

  6. Deep learning-enabled medical computer vision

  7. 11 TOPS photonic convolutional accelerator for optical neural networks

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking

  • 作者:Yingjie Gu、Xiaoye Qu、Zhefeng Wang 等

  • 论文链接:https://arxiv.org/abs/2101.02394


摘要: 实体链接技术的发展可以促进信息抽取、文档分析、智能问答、知识库扩充等不同的任务,但是由于名称的变化和实体的模糊性,实体链接任务十分具有挑战性,尤其是短文本的实体链接,句子长度短,在链接过程中,每个待消歧的实体能利用的上下文信息非常有限。

针对这个任务,华为云的研究人员提出了一个多项选择阅读理解的框架,为句子中每个待消歧的实体分别生成一个问题,并将知识库中的候选实体转换成候选答案集,通过这样一个设计,实体链接转换为了一个阅读理解的问题。为了进一步捕捉句子内待消歧实体间的主题一致性来提高链接的准确率,该工作采用了多轮阅读理解的方式以序列去处理多个待消歧的实体,为句子内多个实体的消歧提供了更丰富的信息。另外,为了解决短文本中常见的不可链接问题(即知识库中没有对应的实体),该工作额外设计了一个两阶段的验证机制来判断实体是否可被链接。大量的实验显示,提出的框架在多个中英文数据集上均取得了目前最优的实体链接效果。

短文本实体链接 M3 框架示意图。

算法 1。

中文和英文数据集上的评估结果对比。

推荐: 本文被 AAAI 2021 会议接收。

论文 2:Online 3D Bin Packing with Constrained Deep Reinforcement Learning

  • 作者:Hang Zhao、Qijin She、Chenyang Zhu 等

  • 论文链接:https://arxiv.org/abs/2006.14978


摘要: 国防科技大学、克莱姆森大学和视比特机器人的研究人员合作使用深度强化学习求解在线装箱问题,该方法的性能表现优于现有的启发式算法。用户研究显示,该算法达到甚至超越了人类的在线码垛水平。作者团队还将训练模型部署到了工业机器人上,实现了业界首个高效能(连续码放 50 个以上随机尺寸箱子,空间利用率大于 70%)无序混合码垛机器人。

基于「预测 - 投影」的动作监督机制实现带约束的深度强化学习。

箱子的真实顺序(左上)和虚拟重排顺序(左下,实际顺序靠前的箱子不能放在实际顺序靠后箱子的上面),右边展示了不同序列的排序树。

基于深度强化学习的高效能无序混合码垛机器人。

推荐: 论文已被 AAAI 2021 会议接收。

论文 3:Synthesizing Aspect-Driven Recommendation Explanations from Reviews

  • 作者:Trung-Hoang Le 和 Hady W. Lauw

  • 论文链接:https://www.ijcai.org/Proceedings/2020/0336.pdf


摘要: 解释有助于理解建议并增加采纳的可能性,然而有些解释性建议方法依赖于严格、标准化的模板。为了获取更加灵活、通俗、多样化的解释,覆盖 interest 各个方面,来自新加坡管理大学的研究者 从评论中选择片段来进行综合解释,同时优化了其代表性和连贯性 。为了适应目标用户的偏好,研究者基于一个兼容的可解释推荐模型,将观点与上下文相衔接。几个产品类别数据集上的实验表明,在模板、评论摘要、选择和文本生成这些方面,本文方法具备更高的效率。

本文提出框架 SEER 的架构。

算法 1:SEER-Greedy

算法 2:Opinion Substitution

推荐: 本文获得了 IJCAI 2020 杰出论文奖。

论文 4:A Multi-Objective Approach to Mitigate Negative Side Effects

  • 作者:Sandhya Saisubramanian、Ece Kamar、Shlomo Zilberstein

  • 论文链接:https://www.ijcai.org/Proceedings/2020/0050.pdf


摘要: 非结构化环境内运行的智能体通常会产生设计时不容易识别的负面作用 (NSE) 。来自 UMass Amherst 和微软研究院的研究者分析了在系统部署过程中, 如何利用各种形式的人类反馈或自主探索,来学习与 NSE 相关的惩罚函数 。他们将降低 NSE 影响的问题描述为一个具备字典式奖励偏好与松弛多目标马尔科夫决策过程。松弛指的是相对于智能体的主要目标允许的最优策略的最大偏差,以减少次要目标 NSE。

多项实验评估表明,本文所提出的框架能够成功减少 NSE 的影响,不同的反馈机制会带来不同的偏差,从而影响 NSE 的识别。

论文提出的消除 NSE 的框架。

算法 1:Slack Estimation

反馈技术中的 Bias

推荐: 本文获得了 IJCAI 2020 杰出论文奖。

论文 5:SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY

  • 作者:William Fedus、Barret Zoph、Noam Shazeer

  • 论文链接:https://arxiv.org/pdf/2101.03961.pdf


摘要: 在深度学习领域,模型通常会对所有输入重用相同的参数。但 Mixture of Experts (MoE,混合专家) 模型是个例外,它们会 为每个输入的例子选择不同的参数 ,结果得到一个稀疏激活模型——虽然参数量惊人,但计算成本恒定。目前,MoE 模型已在机器翻译领域取得了令人瞩目的成就,但由于模型复杂度高、通信成本高、训练不够稳定,其广泛应用受到了一定的阻碍。

为了解决这些问题,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的设计中,它们简化了 MoE 的路由算法(routing algorithm),设计了直观的改进模型,新模型的通信成本和计算成本都大大降低。此外,他们提出的训练技术还提高了训练的稳定性,首次表明大型稀疏模型也可以用低精度(bfloat16)进行训练。研究者还将新模型与 T5-Base 和 T5-Large 进行了对比,结果表明,在相同的计算资源下,新模型实现了最高 7 倍的预训练速度提升。

Switch Transformer 的编码器块。

具有不同专家容量因子(expert capacity factor)的路由示例。

Switch Transformer 与 MoE Transformer 的对比结果。

推荐: 1.6 万亿参数的语言模型。

论文 6:Deep learning-enabled medical computer vision

  • 作者:Andre Esteva、Katherine Chou、Serena Yeung 等

  • 论文链接:https://www.nature.com/articles/s41746-020-00376-2#Sec6


摘要: 十年来,人工智能取得了前所未有的进展,包括医学在内的许多领域都有望从中受益。在该论文中,研究者调查了以深度学习为支撑的现代计算机视觉技术在医学领域的最新进展,重点包括医学成像、医疗视频和临床部署。该论文首先简要概述了卷积神经网络的十年进展,包括它们在医疗领域中实现的视觉任务。接下来,论文讨论了一些有益的医学成像应用示例,涉及心脏病学、病理学、皮肤病学、眼科医学,并为后续研究工作提出了新的方向。此外,研究者还介绍了医疗视频,重点介绍了如何将临床工作流程与计算机视觉结合来改善医疗效果。最后,论文讨论了在现实世界中部署这些技术面临的挑战和障碍。

医疗领域中的计算机视觉任务示例。

医师级别的诊断性能。

环境智能。

推荐: 该论文发表在 Nature 旗下期刊 npj Digital Medicine 上

论文 7:11 TOPS photonic convolutional accelerator for optical neural networks

  • 作者:Xingyuan Xu、Mengxi Tan、Bill Corcoran 等

  • 论文链接:https://www.nature.com/articles/s41586-020-03063-0


摘要: 近日,由徐兴元博士 (莫纳什大学)、David Moss 教授(斯威本大学)和 Arnan Mitchell 教授(RMIT 大学)的带领的国际研究团队展示了目前世界上最快的人工智能光学神经形态处理器,其运行速度超过每秒 11 万亿次运算(TeraOPs/s),能够处理超大规模数据。

这一突破以「11 TOPS photonic convolutional accelerator for optical neural networks」为题发表在著名的《自然》杂志上,代表着神经网络和整个神经形态处理的巨大飞跃。该团队展示的是一种 "光学神经形态处理器",其运行速度是以往任何处理器的 1000 多倍,该系统还能处理创纪录大小的超大规模图像——足以实现完整的面部图像识别,这是其他光学处理器一直无法完成的。

TOPS photonic CA 的运行原理。

光学 CNN 的实验示意图。

卷积层。

推荐: 目前世界上最快的人工智能光学神经形态处理器。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


1. "Let's Eat Grandma": When Punctuation Matters in Sentence Representation for Sentiment Analysis.  (from Huan Liu)
2. Of Non-Linearity and Commutativity in BERT.  (from Roger Wattenhofer)
3. BERT-GT: Cross-sentence n-ary relation extraction with BERT and Graph Transformer.  (from Zhiyong Lu)
4. Robustness Gym: Unifying the NLP Evaluation Landscape.  (from Christopher Ré)
5. Machine-Assisted Script Curation.  (from Ralph Weischedel)
6. Persistent Anti-Muslim Bias in Large Language Models.  (from James Zou)
7. Neural Contract Element Extraction Revisited.  (from Ion Androutsopoulos)
8. MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets.  (from Peng Wang)
9. SICKNL: A Dataset for Dutch Natural Language Inference.  (from Michael Moortgat)
10. Self-Training Pre-Trained Language Models for Zero- and Few-Shot Multi-Dialectal Arabic Sequence Labeling.  (from Muhammad Abdul-Mageed)


本周 10 篇 CV 精选论文是:


1. GAN Inversion: A Survey.  (from Ming-Hsuan Yang)
2. SEED: Self-supervised Distillation For Visual Representation.  (from Lei Zhang, Zicheng Liu)
3. Probabilistic Graph Attention Network with Conditional Kernels for Pixel-Wise Prediction.  (from Xiaogang Wang, Nicu Sebe)
4. DuctTake: Spatiotemporal Video Compositing.  (from Markus Gross)
5. Understanding Action Sequences based on Video Captioning for Learning-from-Observation.  (from Katsushi Ikeuchi, Masayuki Inaba)
6. TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object Tracking.  (from Mohan M. Trivedi)
7. Explainability of vision-based autonomous driving systems: Review and challenges.  (from Patrick Pérez)
8. Multimodal Engagement Analysis from Facial Videos in the Classroom.  (from Ulrich Trautwein)
9. Cross-Modal Contrastive Learning for Text-to-Image Generation.  (from Honglak Lee)
10. DAIL: Dataset-Aware and Invariant Learning for Face Recognition.  (from Jiebo Luo)


本周 10 篇 ML 精选论文是:


1. Fast convolutional neural networks on FPGAs with hls4ml.  (from Maurizio Pierini, Zhenbin Wu)
2. Average-Reward Off-Policy Policy Evaluation with Function Approximation.  (from Richard S. Sutton)
3. A SOM-based Gradient-Free Deep Learning Method with Convergence Analysis.  (from Jinde Cao)
4. Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices.  (from Luca Benini)
5. Unsupervised Domain Adaptation of Black-Box Source Models.  (from Lei Zhang)
6. Neural networks behave as hash encoders: An empirical study.  (from Dacheng Tao)
7. MC-LSTM: Mass-Conserving LSTM.  (from Sepp Hochreiter)
8. BiGCN: A Bi-directional Low-Pass Filtering Graph Neural Network.  (from Yang Wang)
9. Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration.  (from Wei Liu)
10. BN-invariant sharpness regularizes the training model to better generalization.  (from Tie-Yan Liu)

登录查看更多
0

相关内容

自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
28+阅读 · 2020年8月11日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
7篇必读ACM MM 2019论文:图神经网络+多媒体
新智元
43+阅读 · 2019年11月9日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | 面向简单知识库问答的模式修正强化策略
开放知识图谱
3+阅读 · 2018年11月7日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
11+阅读 · 2019年6月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
5+阅读 · 2019年1月16日
VIP会员
相关VIP内容
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
28+阅读 · 2020年8月11日
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
相关论文
Arxiv
5+阅读 · 2019年10月31日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
11+阅读 · 2019年6月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
5+阅读 · 2019年1月16日
Top
微信扫码咨询专知VIP会员