The rapid growth of e-commerce requires robust multimodal representations that capture diverse signals from user-generated listings. Existing vision-language models (VLMs) typically align titles with primary images, i.e., single-view, but overlook non-primary images and auxiliary textual views that provide critical semantics in open marketplaces such as Etsy or Poshmark. To this end, we propose a framework that unifies multimodal and multi-view learning through Factorized Transport, a lightweight approximation of optimal transport, designed for scalability and deployment efficiency. During training, the method emphasizes primary views while stochastically sampling auxiliary ones, reducing training cost from quadratic in the number of views to constant per item. At inference, all views are fused into a single cached embedding, preserving the efficiency of two-tower retrieval with no additional online overhead. On an industrial dataset of 1M product listings and 0.3M interactions, our approach delivers consistent improvements in cross-view and query-to-item retrieval, achieving up to +7.9% Recall@500 over strong multimodal baselines. Overall, our framework bridges scalability with optimal transport-based learning, making multi-view pretraining practical for large-scale e-commerce search.


翻译:电子商务的快速增长需要能够捕捉用户生成商品列表中多样化信号的鲁棒多模态表示。现有视觉语言模型通常仅将标题与主图像(即单视图)对齐,但忽略了在Etsy或Poshmark等开放市场中提供关键语义的非主图像和辅助文本视图。为此,我们提出一个通过因子化传输统一多模态与多视图学习的框架——该方法是针对可扩展性与部署效率设计的最优传输轻量化近似。训练过程中,该方法在强调主视图的同时随机采样辅助视图,将训练成本从视图数量的二次方降至每个商品的常数级。推理阶段,所有视图被融合为单个缓存嵌入,在保持双塔检索效率的同时不产生额外在线开销。在包含100万商品列表和30万交互行为的工业数据集上,我们的方法在跨视图检索和查询-商品检索中实现了持续改进,相比强大多模态基线在Recall@500指标上最高提升7.9%。总体而言,本框架在可扩展性与基于最优传输的学习之间架起桥梁,使多视图预训练在大规模电商搜索中具备实际可行性。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
专知会员服务
44+阅读 · 2021年7月1日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员