Video Understanding, Scene Interpretation and Commonsense Reasoning are highly challenging tasks enabling the interpretation of visual information, allowing agents to perceive, interact with and make rational decisions in its environment. Large Language Models (LLMs) and Visual Language Models (VLMs) have shown remarkable advancements in these areas in recent years, enabling domain-specific applications as well as zero-shot open vocabulary tasks, combining multiple domains. However, the required computational complexity poses challenges for their application on edge devices and in the context of Mobile Robotics, especially considering the trade-off between accuracy and inference time. In this paper, we investigate the capabilities of state-of-the-art VLMs for the task of Scene Interpretation and Action Recognition, with special regard to small VLMs capable of being deployed to edge devices in the context of Mobile Robotics. The proposed pipeline is evaluated on a diverse dataset consisting of various real-world cityscape, on-campus and indoor scenarios. The experimental evaluation discusses the potential of these small models on edge devices, with particular emphasis on challenges, weaknesses, inherent model biases and the application of the gained information. Supplementary material is provided via the following repository: https://datahub.rz.rptu.de/hstr-csrl-public/publications/scene-interpretation-on-edge-devices/


翻译:视频理解、场景解析与常识推理是极具挑战性的任务,它们通过对视觉信息的解释,使智能体能够感知环境、与环境交互并做出合理决策。近年来,大型语言模型(LLMs)与视觉语言模型(VLMs)在这些领域取得了显著进展,不仅支持特定领域的应用,还能结合多领域知识完成零样本开放词汇任务。然而,其所需的计算复杂度为在边缘设备及移动机器人场景中的应用带来了挑战,特别是在精度与推理时间的权衡方面。本文研究了最先进的视觉语言模型在场景解析与行为识别任务中的能力,重点关注可部署于移动机器人边缘设备的小型视觉语言模型。所提出的流程在包含多样化真实世界城市场景、校园环境及室内场景的数据集上进行了评估。实验分析探讨了这些小型模型在边缘设备上的应用潜力,特别关注其面临的挑战、固有缺陷、模型偏差以及所获信息的实际应用。补充材料可通过以下存储库获取:https://datahub.rz.rptu.de/hstr-csrl-public/publications/scene-interpretation-on-edge-devices/

0
下载
关闭预览

相关内容

DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员