DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ - 专知VIP

会员服务 ·

9

DeepSeek-R1 · 多模态人工智能 · 推理模型 ·

DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

机器之心发布 机器之心编辑部

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法，靠着 GRPO（Group Relative Policy Optimization）强化学习方法，在纯文本大模型上取得了惊人的效果。现在，VLM-R1 团队直接把它应用到了视觉语言模型上，打开了一扇新的大门！ **VLM-R1 验证结果惊艳 **

这个项目的团队在 Qwen2.5-VL 的基础上，同时对比了 R1 和传统的 SFT 方法。结果相当惊艳： 1、稳定性拉满：R1 方法在各种复杂场景下都能保持稳定的高性能，这在实际应用至关重要！ 2. 泛化能力卓越：更让人震惊的是，在领域外的测试数据上，随着训练步数增加，传统 SFT 模型的性能开始下滑，而 R1 模型却能持续提升！这意味着 R1 方法帮助模型真正 “学会” 了理解视觉内容，而不是简单地记忆！（训练和测试领域的差异对比）（泛化性对比，绿线是 VLM-R1，在领域外泛化性显著更优） 3、上手超简单：VLM-R1 项目团队还贴心地提供了完整的训练和评估流程，四步就能开始训练，对开发者十分友好。小编亲测之后，在此分享一个实际案例，结果让人意外。

图片里展示了一桌子丰盛的美食，包括各种蔬菜、面饼和点心。针对图片，我们向模型提出了一个问题：“在图片中找出蛋白质含量最高的食物”。模型不仅回答得准确： “图片中展示了桌上的各种菜品，包括蔬菜、面饼和点心。从蛋白质含量来看，面饼或面点可能含量最高，因为它们通常由全谷物制成，面粉中含有蛋白质。虽然蔬菜也含有蛋白质，但比起这些主食来说含量较少。” 更厉害的是，它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼！这种精确的视觉理解能力和推理能力，让人印象深刻！完美展示了 VLM-R1 在实际应用中的优势：

准确的视觉识别能力 * 专业的知识推理能力 * 清晰的文本表达能力

全新思路

作为一个 AI 领域的观察者，VLM-R1 的出现也为开发者和行业提供了许多新的思路，比如： 1、证明了 R1 方法的通用性，不止文本领域玩得转；2、为多模态模型的训练提供了新思路；3、或许能够引领一种全新的视觉语言模型训练潮流； 完全开源

最棒的是，这个优秀的项目完全开源！项目地址：VLM-R1

成为VIP会员查看完整内容

25

相关内容

DeepSeek-R1

DeepSeek R1本地部署，小白教程来了！

DeepSeek R1本地部署，小白教程来了！

专知会员服务

43+阅读 · 2月1日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

专知会员服务

172+阅读 · 2023年5月11日

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

专知会员服务

20+阅读 · 2023年3月31日

强化学习难学？Datawhale《Easy RL强化学习教程》出版了！188页pdf帮你轻松入门强化学习

强化学习难学？Datawhale《Easy RL强化学习教程》出版了！188页pdf帮你轻松入门强化学习

专知会员服务

147+阅读 · 2022年4月8日

斯坦福CS246《大数据挖掘》2021课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

斯坦福CS246《大数据挖掘》2021课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

专知会员服务

29+阅读 · 2022年3月9日

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

专知会员服务

193+阅读 · 2020年5月3日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【ML热点】贝叶斯学习与深度学习如何结合？看这份《贝叶斯深度学习 Deep Learning with Bayesian Principles 》NeurIPS2019硬核教程

【ML热点】贝叶斯学习与深度学习如何结合？看这份《贝叶斯深度学习 Deep Learning with Bayesian Principles 》NeurIPS2019硬核教程

专知会员服务

117+阅读 · 2019年12月22日

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

重磅！《深度学习 500 问》已更新，GitHub 标星 2.6W（附完整下载）

重磅！《深度学习 500 问》已更新，GitHub 标星 2.6W（附完整下载）

数据派THU

39+阅读 · 2019年7月14日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

Bert最新进展，继续在NLP各领域开花结果！

Bert最新进展，继续在NLP各领域开花结果！

机器学习算法与Python学习

20+阅读 · 2019年6月11日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

【专知评测】机器学习平台 MLflow 上手视频

【专知评测】机器学习平台 MLflow 上手视频

专知

11+阅读 · 2018年6月9日

【最新PyTorch0.4.0教程01】PyTorch的动态计算图深入浅出

【最新PyTorch0.4.0教程01】PyTorch的动态计算图深入浅出

专知

31+阅读 · 2018年4月30日

【前沿】见人识面，TensorFlow实现人脸性别/年龄识别

【前沿】见人识面，TensorFlow实现人脸性别/年龄识别

专知

14+阅读 · 2017年12月16日

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

中国地区生产率差距研究——基于异质性企业、劳动力与产业空间分布的视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

33+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向汽车造型的产品设计DNA本体建模与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

天气影响下基于损失厌恶的“公司+农户”型农产品供应链风险管理研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心的移动自组织社交网络缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

Model Adaptation: Unsupervised Domain Adaptation without Source Data

Arxiv

0+阅读 · 2月26日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Lifelong Learning Metrics

Lifelong Learning Metrics

Arxiv

48+阅读 · 2022年1月20日

VIP会员

相关主题

多模态人工智能

相关VIP内容

DeepSeek R1本地部署，小白教程来了！

DeepSeek R1本地部署，小白教程来了！

专知会员服务

43+阅读 · 2月1日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

专知会员服务

172+阅读 · 2023年5月11日

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

专知会员服务

20+阅读 · 2023年3月31日

强化学习难学？Datawhale《Easy RL强化学习教程》出版了！188页pdf帮你轻松入门强化学习

强化学习难学？Datawhale《Easy RL强化学习教程》出版了！188页pdf帮你轻松入门强化学习

专知会员服务

147+阅读 · 2022年4月8日

斯坦福CS246《大数据挖掘》2021课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

斯坦福CS246《大数据挖掘》2021课程开始了！Jure Leskovec大牛主讲，附课程PPT下载

专知会员服务

29+阅读 · 2022年3月9日

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

专知会员服务

193+阅读 · 2020年5月3日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【ML热点】贝叶斯学习与深度学习如何结合？看这份《贝叶斯深度学习 Deep Learning with Bayesian Principles 》NeurIPS2019硬核教程

【ML热点】贝叶斯学习与深度学习如何结合？看这份《贝叶斯深度学习 Deep Learning with Bayesian Principles 》NeurIPS2019硬核教程

专知会员服务

117+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

重磅！《深度学习 500 问》已更新，GitHub 标星 2.6W（附完整下载）

重磅！《深度学习 500 问》已更新，GitHub 标星 2.6W（附完整下载）

数据派THU

39+阅读 · 2019年7月14日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

Bert最新进展，继续在NLP各领域开花结果！

Bert最新进展，继续在NLP各领域开花结果！

机器学习算法与Python学习

20+阅读 · 2019年6月11日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

【专知评测】机器学习平台 MLflow 上手视频

【专知评测】机器学习平台 MLflow 上手视频

专知

11+阅读 · 2018年6月9日

【最新PyTorch0.4.0教程01】PyTorch的动态计算图深入浅出

【最新PyTorch0.4.0教程01】PyTorch的动态计算图深入浅出

专知

31+阅读 · 2018年4月30日

【前沿】见人识面，TensorFlow实现人脸性别/年龄识别

【前沿】见人识面，TensorFlow实现人脸性别/年龄识别

专知

14+阅读 · 2017年12月16日

相关基金

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

中国地区生产率差距研究——基于异质性企业、劳动力与产业空间分布的视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

33+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向汽车造型的产品设计DNA本体建模与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

天气影响下基于损失厌恶的“公司+农户”型农产品供应链风险管理研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心的移动自组织社交网络缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Model Adaptation: Unsupervised Domain Adaptation without Source Data

Arxiv

0+阅读 · 2月26日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Lifelong Learning Metrics

Lifelong Learning Metrics

Arxiv

48+阅读 · 2022年1月20日

微信扫码咨询专知VIP会员