儿童和机器的语言习得是了不起的。然而,虽然儿童通过听相对少量的语言以及与人和周围环境的互动来学习,但神经语言模型需要更多的数据和监督,难以泛化到新领域,绝大多数情况下只能从文本中学习。本文探讨了关于儿童语言习得的知识——特别是儿童接受语言信息的规模和类型,他们如何使用反馈,以及他们如何以超出他们接触到的语言输入的系统方式进行概括——如何应用于多模态语言模型。本文的重点是:(1)基于视觉,用较少的数据训练弱监督语言模型;(2)探索模型在多模态域的泛化能力。第一种方法使用字幕视频训练语义解析器,将自然语言映射到逻辑形式,在没有解析树或任何其他注释的情况下进行学习。第二种方法从简单的观察视频转向使用机器人模拟器和世界状态来验证生成的逻辑形式的更动态的设置。这些方法专注于评估弱监督,训练和推理数据相对相似;探索了评估,其中推理数据与训练数据有很大不同,需要系统的泛化。一种方法测试了预训练和一种新的解码策略在网格世界中导航的作用;推理命令和动作序列在系统方面与训练不同。最后一种方法测试了当输入图像或文本中的人口统计特征与其学习到的社会偏见不同时,预训练的多模态transformer模型的泛化程度。