人工智能系统近年来已经展现出了显著的进步。然而,扩展性和泛化到实际问题仍然是一个重大问题。在本论文中,我们探讨了构建可扩展计算机视觉人工智能系统的三个关键组成部分,包括模型优化能力、学习目标和大规模数据集,并将这些成果应用于机器人技术。我们的工作从视觉变换器的优化性研究开始,提出了一组新的优化性度量标准和一种替代的片段化设计。接下来,我们引入了一种对比自监督学习目标,减少了自监督学习中的归纳偏见,导致在各种数据集上都有优越的性能。然后,我们展示了自监督视觉预训练在真实世界图像中学习运动控制任务的效果,从像素中学习,超越了有监督的基线,并与标准状态性能相匹配。在此基础上,我们探索了在野外多样化视频中对真实世界机器人任务的自监督视觉预训练,展示了预训练表示在一系列任务和实体中的有效性。此外,我们提出了一种基于因果变换器的仿真到真实学习方法,用于真实世界中全尺寸仿人机器人的行走,这标志着第一个完全基于学习的方法用于真实世界中全尺寸仿人机器人的行走。最后,我们总结了论文并讨论了该领域进一步研究的可能未来方向。