Multimodal recommendation aims to integrate collaborative signals with heterogeneous content such as visual and textual information, but remains challenged by modality-specific noise, semantic inconsistency, and unstable propagation over user-item graphs. These issues are often exacerbated by naive fusion or shallow modeling strategies, leading to degraded generalization and poor robustness. While recent work has explored the frequency domain as a lens to separate stable from noisy signals, most methods rely on static filtering or reweighting, lacking the ability to reason over spectral structure or adapt to modality-specific reliability. To address these challenges, we propose a Structured Spectral Reasoning (SSR) framework for frequency-aware multimodal recommendation. Our method follows a four-stage pipeline: (i) Decompose graph-based multimodal signals into spectral bands via graph-guided transformations to isolate semantic granularity; (ii) Modulate band-level reliability with spectral band masking, a training-time masking with a prediction-consistency objective that suppresses brittle frequency components; (iii) Fuse complementary frequency cues using hyperspectral reasoning with low-rank cross-band interaction; and (iv) Align modality-specific spectral features via contrastive regularization to promote semantic and structural consistency. Experiments on three real-world benchmarks show consistent gains over strong baselines, particularly under sparse and cold-start settings. Additional analyses indicate that structured spectral modeling improves robustness and provides clearer diagnostics of how different bands contribute to performance.


翻译:多模态推荐旨在将协同信号与视觉、文本等异构内容相结合,但仍面临模态特定噪声、语义不一致性以及在用户-物品图上传播不稳定等挑战。这些问题常因简单的融合或浅层建模策略而加剧,导致泛化能力下降和鲁棒性不足。尽管近期研究探索了以频域为视角来分离稳定信号与噪声信号,但多数方法依赖于静态滤波或重加权,缺乏对谱结构进行推理或适应模态特定可靠性的能力。为应对这些挑战,我们提出一种面向频率感知多模态推荐的结构化谱推理(SSR)框架。该方法遵循四阶段流程:(i)通过图引导变换将基于图的多模态信号分解为谱带,以隔离语义粒度;(ii)利用谱带掩码调节带级可靠性,这是一种以预测一致性为目标、在训练时执行的掩码操作,可抑制脆弱的频率分量;(iii)通过低秩跨带交互的超谱推理融合互补的频率线索;(iv)通过对比正则化对齐模态特定的谱特征,以提升语义和结构一致性。在三个真实世界基准数据集上的实验表明,该方法相较于强基线模型取得了一致的性能提升,尤其在稀疏和冷启动场景下更为显著。进一步分析表明,结构化谱建模提高了系统的鲁棒性,并为不同谱带如何影响性能提供了更清晰的诊断依据。

0
下载
关闭预览

相关内容

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
18+阅读 · 2022年4月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员