We present a novel unsupervised framework to unlock vast unlabeled human demonstration data from continuous industrial video streams for Vision-Language-Action (VLA) model pre-training. Our method first trains a lightweight motion tokenizer to encode motion dynamics, then employs an unsupervised action segmenter leveraging a novel "Latent Action Energy" metric to discover and segment semantically coherent action primitives. The pipeline outputs both segmented video clips and their corresponding latent action sequences, providing structured data directly suitable for VLA pre-training. Evaluations on public benchmarks and a proprietary electric motor assembly dataset demonstrate effective segmentation of key tasks performed by humans at workstations. Further clustering and quantitative assessment via a Vision-Language Model confirm the semantic coherence of the discovered action primitives. To our knowledge, this is the first fully automated end-to-end system for extracting and organizing VLA pre-training data from unstructured industrial videos, offering a scalable solution for embodied AI integration in manufacturing.


翻译:我们提出了一种新颖的无监督框架,旨在从连续的工业视频流中解锁大量未标记的人类演示数据,以用于视觉-语言-动作(VLA)模型的预训练。我们的方法首先训练一个轻量级运动分词器来编码运动动态,然后采用一种无监督动作分割器,利用新颖的“潜在动作能量”度量来发现并分割语义一致的动作基元。该流程输出分割后的视频片段及其对应的潜在动作序列,提供可直接用于VLA预训练的结构化数据。在公共基准和专有电机装配数据集上的评估表明,该方法能有效分割人类在工作站执行的关键任务。通过视觉-语言模型进行的进一步聚类和定量评估,证实了所发现动作基元的语义一致性。据我们所知,这是首个完全自动化的端到端系统,用于从非结构化工业视频中提取和组织VLA预训练数据,为制造业中具身人工智能的集成提供了可扩展的解决方案。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年3月18日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员