In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/


翻译:在现有的大多数具身导航任务中,指令通常是明确且无歧义的,例如指令跟随和物体搜索。在这种理想化设定下,智能体仅需根据视觉和语言输入生成有效的导航输出。然而,现实世界的导航指令往往是模糊且有歧义的,要求智能体通过主动对话来消除不确定性并推断用户意图。为弥补这一差距,我们提出了交互式实例物体导航(IION)任务,该任务要求智能体不仅生成导航动作,还需通过主动对话产生语言输出,从而更贴近实际应用场景。IION扩展了实例物体导航(ION)任务,允许智能体在导航过程中以自然语言自由向一个预言机咨询。基于此任务,我们提出了视觉语言-语言导航(VL-LN)基准,该基准提供了一个大规模自动生成的数据集以及一个全面的评估协议,用于训练和评估具备对话能力的导航模型。VL-LN包含超过41k条用于训练的长时程对话增强轨迹,以及一个配备能够响应智能体查询的预言机的自动评估协议。利用此基准,我们训练了一个具备对话能力的导航模型,并证明其相较于基线模型取得了显著提升。大量的实验与分析进一步证明了VL-LN在推动具备对话能力的具身导航研究方面的有效性和可靠性。代码与数据集:https://0309hws.github.io/VL-LN.github.io/

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员