7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

会员服务 ·

7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

2023 年 4 月 9 日 机器之心

机器之心 & ArXiv Weekly

参与：楚航、罗若天、梅洪源

本周论文包括 Meta 发布「分割一切」AI 模型；国内 20 余位研究者联合撰写大型语言模型综述等。

Segment Anything
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning
A Survey of Large Language Models
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
RPTQ: Reorder-based Post-training Quantization for Large Language Models
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners
MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Segment Anything

作者：Alexander Kirillov、Eric Mintun 等
论文地址：https://arxiv.org/abs/2304.02643

摘要：Meta 发布了新模型 Segment Anything Model (SAM) 。他们在博客中介绍说，「SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。」在深度学习领域，这种能力通常被称为零样本迁移，这也是 GPT-4 震惊世人的一大原因。

除了模型，Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B)，据称这是有史以来最大的分割数据集。该数据集可用于研究目的，并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

如下面动图所示，SAM 能很好的自动分割图像中的所有内容：

‍推荐：‍Meta 发布「分割一切」AI 模型，CV 或迎来 GPT-3 时刻。

论文 2：Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning

作者：Pan Lu、Liang Qiu 等
论文地址：https://arxiv.org/abs/2209.14610

摘要：来自 UCLA 和艾伦人工智能研究院（AI2）的研究人员推出了 Tabular Math Word Problems (TabMWP) ，这是一个包含了 38,431 个开放领域问题的数据集，需要同时在文本和表格数据上进行数学推理得到正确答案。TabMWP 中的每个问题都与一个上下文相关联，这个上下文包含图片、文本或结构化格式的表格。

研究人员在 TabMWP 上评估了包括 Few-shot GPT-3 等不同的预训练模型。正如已有的研究发现，Few-shot GPT-3 很依赖 in-context 示例的选择，这导致其在随机选择示例的情况下性能相当不稳定。这种不稳定在处理像 TabMWP 这样复杂的推理问题时表现得更加严重。为了解决这一问题，作者提出了 PromptPG 方法，这种方法将示例的选择转化成强化学习中的 contextual bandit 问题，并且利用 Policy Gradient 训练一个策略网络来学习从少量的训练数据中选择最优的 in-context 示例。实验结果表明，他们提出的 PromptPG 方法在回答问题的准确性上超过最优基准（Few-shot CoT GPT-3）5.31%，并且相对于随机选择的 in-context examples，他们的方法显著降低了预测的方差，提升了这类方法的稳定性。

推荐：PromptPG：当强化学习遇见大规模语言模型。

论文 3：A Survey of Large Language Models

作者：Wayne Xin Zhao、Kun Zhou 等
论文地址：https://arxiv.org/abs/2303.18223

摘要：考虑到 LLMs 的快速技术进步，中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展，尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源，讨论了未来发展方向等问题。对于领域内研究人员和工程师而言，这份综述是一份极其有用的学习资源。

在进入正文前，我们先来看 2019 年以来出现的各种大语言模型（百亿参数以上）时间轴，其中标黄的大模型已开源。

推荐：大型语言模型综述全新出炉：从 T5 到 GPT-4 最全盘点，国内 20 余位研究者联合撰写。

论文 4：HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

作者：Yongliang Shen、Kaitao Song 等
论文地址：https://arxiv.org/abs/2303.17580

摘要：来自浙江大学和微软亚研的研究者最近提出了一种让 LLM 充当控制器的新方法，让 LLM 来管理现有的 AI 模型以解决复杂的 AI 任务，并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区（例如 HuggingFace）中各种 AI 模型以解决复杂 AI 任务的系统。

具体来说，HuggingGPT 在收到用户请求时使用 ChatGPT 进行任务规划，根据 HuggingFace 中可用的功能描述选择模型，用选定的 AI 模型执行每个子任务，并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和 HuggingFace 丰富的 AI 模型，HuggingGPT 能够完成覆盖不同模态和领域的复杂 AI 任务，并在语言、视觉、语音等具有挑战性的任务中取得了令人印象深刻的结果。HuggingGPT 为走向通用人工智能开辟了一条新的道路。

HuggingGPT 是一个协作系统，大型语言模型（LLM）充当控制器、众多专家模型作为协同执行器。其工作流程共分为四个阶段：任务规划、模型选择、任务执行和响应生成。

推荐：用 ChatGPT「指挥」数百个模型，HuggingGPT 让专业模型干专业事。

论文 5：RPTQ: Reorder-based Post-training Quantization for Large Language Models

作者：Zhihang Yuan等
论文地址：https://arxiv.org/abs/2304.01089

摘要：在这篇论文中，来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型语言模型的主要挑战来自于通道之间不同的激活范围，而不仅仅是离群值问题。

作者提出了一种新颖的基于重排序的量化方法 RPTQ，解决了量化大型语言模型激活的问题。RPTQ 通过重新排列激活中的通道，然后将它们分簇进行量化，从而降低通道范围差异的影响。

此外，作者通过避免显式重新排序来减少存储和计算开销。该工作首次将 LLM 模型的激活量化推向 3 比特。激活值的 3 比特量化同时也能与权重的 3 比特量化共同使用，大幅度降低了大型欲言模型的开销。

推荐：基于重排序的新量化方法RPTQ。

论文 6：Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

作者：Zitian Chen、Yikang Shen 等
论文地址：https://arxiv.org/abs/2212.08066

摘要：UMass Amherst 淦创团队提出了 Mod-Squad 模型，它可以从多任务大模型中提取针对单一任务的相同性能小模型，在 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。

如下图所示， Mod-Squad 的结构就是将 Mixture-of-expert (MoE) 引入 Vision Transformer (ViT)。MoE 是一种机器学习模型，其中多个专家组成了一个混合模型。每个专家都是一个独立的模型，并且每个模型对于不同的输入有不同的贡献。最后，所有专家的贡献被加权并组合在一起以得到最终的输出。这种方法的优势在于它可以根据输入图像的内容动态地选择最佳的专家并且控制计算量。

Mod-Squad: 将专家组 (mixture-of-expert) 插入到 Vision Transformer.

推荐：模块化 MoE 将成为视觉多任务学习基础模型。

论文 7：MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS

作者：Shima Imani 、Liang Du 等
论文地址：https://arxiv.org/pdf/2303.05398.pdf

摘要：来自微软的研究者从人类解决数学问题的方式中获得灵感，将其分解为更简单的多步骤程序，并在每个步骤中利用多种方式来验证他们的方法。

本文提出的方法 ——MathPrompter，就是试图将这种思维过程的一部分转移到大型语言模型答案生成过程中。图 1 概述了 MathPrompter 解决一个数学推理问题所遵循的步骤。

推荐：让大模型像学生一样解数学题，正确率提升 14%，微软的 MathPrompter 了解一下。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选, 并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. MEGClass: Text Classification with Extremely Weak Supervision via Mutually-Enhancing Text Granularities. (from Jiawei Han)

2. On the Pareto Front of Multilingual Neural Machine Translation. (from Liang Chen)

3. oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes. (from ChengXiang Zhai)

4. To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency. (from ChengXiang Zhai)

5. REFINER: Reasoning Feedback on Intermediate Representations. (from Boi Faltings)

6. Self-Refine: Iterative Refinement with Self-Feedback. (from Yiming Yang)

7. Lego-Features: Exporting modular encoder features for streaming and deliberation ASR. (from Tara N. Sainath)

8. Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR. (from Tara N. Sainath)

9. Instruction Tuning with GPT-4. (from Jianfeng Gao)

10. Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations. (from Dragomir Radev)

本周 10 篇 CV 精选论文是：

1. Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime. (from Andrew Zisserman)

2. Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?. (from Pieter Abbeel, Jitendra Malik)

3. Bridging the Gap between Model Explanations in Partially Annotated Multi-label Classification. (from Cordelia Schmid)

4. Segment Anything. (from Alexander C. Berg, Piotr Dollár, Ross Girshick)

5. HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised Learning of Actions. (from Rama Chellappa)

6. JacobiNeRF: NeRF Shaping with Mutual Information Gradients. (from Leonidas Guibas)

7. GINA-3D: Learning to Generate Implicit Neural Assets in the Wild. (from Leonidas Guibas, Dragomir Anguelov)

8. VDN-NeRF: Resolving Shape-Radiance Ambiguity via View-Dependence Normalization. (from Leonidas Guibas)

9. Diffusion Action Segmentation. (from Mubarak Shah)

10. DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics. (from Hao Su, Joshua B. Tenenbaum)

本周 10 篇 ML 精选论文是：

1. Scalable Bayesian Meta-Learning through Generalized Implicit Gradients. (from Georgios B. Giannakis)

2. GenPhys: From Physical Processes to Generative Models. (from Max Tegmark)

3. Accelerating exploration and representation learning with offline pre-training. (from Doina Precup, Rob Fergus)

4. Counterfactual Learning on Graphs: A Survey. (from Charu Aggarwal)

5. On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks. (from Michael Unser)

6. PopulAtion Parameter Averaging (PAPA). (from Yan Zhang)

7. A Survey on Vertical Federated Learning: From a Layered Perspective. (from Kai Chen)

8. Accelerating Wireless Federated Learning via Nesterov's Momentum and Distributed Principle Component Analysis. (from Victor C. M. Leung)

9. ConvBLS: An Effective and Efficient Incremental Convolutional Broad Learning System for Image Classification. (from C. L. Philip Chen, Tong Zhang)

10. E($3$) Equivariant Graph Neural Networks for Particle-Based Fluid Mechanics. (from Johannes Brandstetter)

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

分割

关注 0

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

专知会员服务

40+阅读 · 2023年4月6日

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

专知会员服务

44+阅读 · 2023年4月5日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知会员服务

182+阅读 · 2023年4月4日

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

199+阅读 · 2023年2月17日

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

专知会员服务

142+阅读 · 2022年10月19日

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

图像分割二十年，盘点影响力最大的10篇论文

专知会员服务

84+阅读 · 2020年9月27日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

分割一切还不够，还要检测一切、生成一切，SAM二创开始了

机器之心

3+阅读 · 2023年4月8日

通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

机器之心

4+阅读 · 2023年4月8日

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

机器之心

0+阅读 · 2023年4月6日

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

机器之心

0+阅读 · 2023年4月5日

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

机器之心

2+阅读 · 2022年11月13日

7 Papers & Radios | ECCV 2022最佳论文；Transformer在试错中自主改进

机器之心

0+阅读 · 2022年10月30日

Diffusion Model一发力，GAN就过时了？？？

量子位

3+阅读 · 2022年8月20日

7 Papers & Radios | MIT研究登Science；腾讯深度学习推荐系统首次入选OSDI顶会

机器之心

0+阅读 · 2022年8月7日

7 Papers & Radios | 机器人顶会RSS最佳论文；谷歌用语言模型解数学题

机器之心

1+阅读 · 2022年7月3日

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

基于多光源图像融合的织物纱线分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

国产盆距兰属(Gastrochilus)的分类修订

国家自然科学基金

0+阅读 · 2015年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主动表观模型的MR脑图像海马自动识别和三维分割法联合fMRI多模态成像模式用于AD早期诊断

国家自然科学基金

0+阅读 · 2013年12月31日

基于FrameNet的中文评价词汇本体构建与观点挖掘研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于相似图谱的脑MR图像海马体自动分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多尺度分割的视觉显著性模型及其应用研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

大规模动态本体映射模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于胶体晶体模板的新型纳米结构的溶液相合成

国家自然科学基金

0+阅读 · 2008年12月31日

GPT-3-driven pedagogical agents for training children's curious question-asking skills

Arxiv

0+阅读 · 2023年5月30日

AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation

Arxiv

0+阅读 · 2023年5月30日

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Arxiv

1+阅读 · 2023年5月29日

InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions

Arxiv

0+阅读 · 2023年5月29日

Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

Arxiv

0+阅读 · 2023年5月29日

Semantic Segmentation with Bidirectional Language Models Improves Long-form ASR

Arxiv

0+阅读 · 2023年5月28日

Inseq: An Interpretability Toolkit for Sequence Generation Models

Arxiv

0+阅读 · 2023年5月27日

Can large language models generate salient negative statements?

Arxiv

0+阅读 · 2023年5月26日

Code-Switched Text Synthesis in Unseen Language Pairs

Arxiv

0+阅读 · 2023年5月26日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

VIP会员