成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Vision
关注
4
综合
百科
VIP
热门
动态
论文
精华
Think With Videos For Agentic Long-Video Understanding
Arxiv
0+阅读 · 10月9日
MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction
Arxiv
0+阅读 · 10月9日
BLAZER: Bootstrapping LLM-based Manipulation Agents with Zero-Shot Data Generation
Arxiv
0+阅读 · 10月9日
MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
Arxiv
0+阅读 · 10月9日
ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation?
Arxiv
0+阅读 · 10月9日
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
Arxiv
0+阅读 · 10月9日
VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Vision Backbones
Arxiv
0+阅读 · 10月9日
PiCo: Jailbreaking Multimodal Large Language Models via Pictorial Code Contextualization
Arxiv
0+阅读 · 10月9日
Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
Arxiv
0+阅读 · 10月9日
When Light Bends to the Collective Will: A Theory and Vision for Adaptive Photonic Scale-up Domains
Arxiv
0+阅读 · 10月9日
ARM2: Adaptive Reasoning Model with Vision Understanding and Executable Code
Arxiv
0+阅读 · 10月9日
MLLM4TS: Leveraging Vision and Multimodal Language Models for General Time-Series Analysis
Arxiv
0+阅读 · 10月8日
To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models
Arxiv
0+阅读 · 10月9日
Addressing Visual Impairments with Model-Driven Engineering: A Systematic Literature Review
Arxiv
0+阅读 · 10月7日
MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning
Arxiv
0+阅读 · 10月8日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top