Despite impressive visual fidelity, current text-to-image (T2I) diffusion models struggle to depict rare, complex, or culturally nuanced concepts due to training data limitations. We introduce RAVEL, a training-free framework that significantly improves rare concept generation, context-driven image editing, and self-correction by integrating graph-based retrieval-augmented generation (RAG) into diffusion pipelines. Unlike prior RAG and LLM-enhanced methods reliant on visual exemplars, static captions or pre-trained knowledge of models, RAVEL leverages structured knowledge graphs to retrieve compositional, symbolic, and relational context, enabling nuanced grounding even in the absence of visual priors. To further refine generation quality, we propose SRD, a novel self-correction module that iteratively updates prompts via multi-aspect alignment feedback, enhancing attribute accuracy, narrative coherence, and semantic fidelity. Our framework is model-agnostic and compatible with leading diffusion models including Stable Diffusion XL, Flux, and DALL-E 3. We conduct extensive evaluations across three newly proposed benchmarks - MythoBench, Rare-Concept-1K, and NovelBench. RAVEL also consistently outperforms SOTA methods across perceptual, alignment, and LLM-as-a-Judge metrics. These results position RAVEL as a robust paradigm for controllable and interpretable T2I generation in long-tail domains.


翻译:尽管当前文本到图像(T2I)扩散模型在视觉保真度方面表现卓越,但由于训练数据的局限性,它们在描绘稀有、复杂或文化上微妙的概念时仍面临困难。我们提出了RAVEL,一个无需训练的框架,通过将基于图的检索增强生成(RAG)集成到扩散流程中,显著提升了稀有概念生成、上下文驱动的图像编辑以及自我校正能力。与先前依赖视觉示例、静态描述或模型预训练知识的RAG及LLM增强方法不同,RAVEL利用结构化知识图谱检索组合性、符号性和关系性的上下文,即使在缺乏视觉先验的情况下也能实现细致的概念锚定。为进一步提升生成质量,我们提出了SRD,一种新颖的自我校正模块,通过多维度对齐反馈迭代更新提示词,从而增强属性准确性、叙事连贯性和语义保真度。我们的框架与模型无关,兼容包括Stable Diffusion XL、Flux和DALL-E 3在内的主流扩散模型。我们在三个新提出的基准测试——MythoBench、Rare-Concept-1K和NovelBench上进行了广泛评估。RAVEL在感知质量、对齐度和LLM-as-a-Judge指标上均持续超越现有最优方法。这些结果确立了RAVEL作为长尾领域中可控且可解释的T2I生成的稳健范式。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员