This search introduces the Multimodal Socialized Learning Framework (M-S2L), designed to foster emergent social intelligence in AI agents by integrating Multimodal Large Language Models (M-LLMs) with social learning mechanisms. The framework equips agents with multimodal perception (vision and text) and structured action capabilities, enabling physical manipulation and grounded multimodal communication (e.g., text with visual pointers). M-S2L combines direct reinforcement learning with two novel social learning pathways: multimodal observational learning and communication-driven learning from feedback, augmented by an episodic memory system for long-term social context. We evaluate M-S2L in a Collaborative Assembly Environment (CAE), where agent teams must construct complex devices from ambiguous blueprints under informational asymmetry. Across tasks of increasing complexity, M-S2L agents consistently outperform Text-Only and No-Social-Learning baselines in Task Completion Rate and Time to Completion, particularly in dynamic problem-solving scenarios. Ablation studies confirm the necessity of both multimodality and socialized learning. Our analysis reveals the emergence of efficient communication protocols integrating visual pointers with concise text, alongside rapid role specialization leading to stable labor division. Qualitative case studies demonstrate agents' abilities for shared awareness, dynamic re-planning, and adaptive problem-solving, suggesting a nascent form of machine social cognition. These findings indicate that integrating multimodal perception with explicit social learning is critical for developing human-like collaborative intelligence in multi-agent systems.


翻译:本研究提出了多模态社会化学习框架(M-S2L),旨在通过整合多模态大语言模型(M-LLMs)与社会学习机制,促进人工智能智能体涌现社会智能。该框架赋予智能体多模态感知(视觉与文本)和结构化行动能力,使其能够进行物理操作及基于场景的多模态交流(例如结合视觉指示符的文本)。M-S2L将直接强化学习与两种新型社会学习路径相结合:多模态观察学习与基于反馈的交流驱动学习,并通过情景记忆系统增强长期社会情境理解。我们在协作装配环境(CAE)中评估M-S2L,该环境中智能体团队需在信息不对称条件下根据模糊图纸构建复杂装置。在逐级递增的复杂任务中,M-S2L智能体在任务完成率和完成时间上持续优于纯文本基准模型和无社会学习基准模型,尤其在动态问题解决场景中表现突出。消融实验证实了多模态与社会化学习的必要性。分析表明,智能体涌现出整合视觉指示符与简洁文本的高效通信协议,并快速形成角色专业化,实现稳定的劳动分工。定性案例研究展示了智能体在共享态势感知、动态重规划及适应性问题解决方面的能力,暗示了一种初具雏形的机器社会认知形态。这些发现表明,在多智能体系统中整合多模态感知与显性社会学习,对于发展类人协作智能具有关键意义。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员