While Joint-Embedding Predictive Architecture (JEPA) has emerged as a powerful architecture for learning rich latent representations, it fundamentally lacks generative abilities. Meanwhile, current latent reasoning models remain limited by the token-by-token generation paradigm, which suffers from compounding errors and heavy context dependency. To address these limitations, we proposed JEPA-Reasoner, a novel JEPA-based architecture enhanced with generative ability for latent reasoning. We augment this architecture with a separate action-talker model, Talker, to reconstruct human-readable text from latent representations produced by the JEPA-Reasoner. Our work demonstrated that decoupling latent-space reasoning from token production enables JEPA-Reasoner to produce mixed latent vectors, laying a foundation for multi-threaded reasoning and achieving superior robustness against compounding errors in autoregressive generation.


翻译:尽管联合嵌入预测架构(JEPA)已成为学习丰富潜在表示的有力架构,但其本质上缺乏生成能力。同时,当前的潜在推理模型仍受限于逐标记生成范式,该范式存在误差累积和严重上下文依赖问题。为应对这些局限,我们提出了JEPA-Reasoner——一种基于JEPA的新型架构,通过增强生成能力实现潜在推理。我们为该架构引入了一个独立的动作-说话器模型Talker,用于从JEPA-Reasoner生成的潜在表示中重建人类可读文本。研究表明,将潜在空间推理与标记生成解耦使得JEPA-Reasoner能够生成混合潜在向量,这为多线程推理奠定了基础,并在自回归生成中实现了对误差累积更强的鲁棒性。

0
下载
关闭预览

相关内容

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
34+阅读 · 2023年3月26日
专知会员服务
23+阅读 · 2021年6月22日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
34+阅读 · 2023年3月26日
专知会员服务
23+阅读 · 2021年6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员