As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks. To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.


翻译:随着具身智能成为人工智能研究的核心前沿,仿真平台必须超越低层物理交互,以捕捉复杂、以人为中心的社会行为。我们提出FreeAskWorld,一个交互式仿真框架,该框架集成大语言模型(LLM)用于高层行为规划和基于语义的交互,并借鉴意图与社会认知理论。我们的框架支持可扩展、真实的人-智能体仿真,并包含一个为多样化具身任务定制的模块化数据生成流程。为验证该框架,我们将经典的视觉与语言导航(VLN)任务扩展为交互增强的路径问询场景,其中智能体能够主动寻求并解读导航指引。我们介绍并公开发布FreeAskWorld,这是一个大规模基准数据集,包含重建的环境、六种不同的任务类型、16个核心物体类别、63,429个标注样本帧以及超过17小时的交互数据,以支持具身人工智能系统的训练与评估。我们在开环和闭环两种设置下对VLN模型及人类参与者进行了基准测试。实验结果表明,在FreeAskWorld上微调的模型优于其原始版本,实现了增强的语义理解与交互能力。这些发现强调了基于社会情境的仿真框架在推动具身人工智能系统实现复杂高层规划和更自然的人-智能体交互方面的有效性。重要的是,我们的工作强调交互本身作为一种额外的信息模态。

0
下载
关闭预览

相关内容

Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员