Text-to-image diffusion models generate realistic and coherent images but often fail to follow numerical instructions in text, revealing a gap between language and visual representation. Interestingly, we found that these models are not entirely blind to numbers-they are implicitly aware of their own counting accuracy, as their internal signals shift in consistent ways depending on whether the output meets the specified count. This observation suggests that the model already encodes a latent notion of numerical correctness, which can be harnessed to guide generation more precisely. Building on this intuition, we introduce CountSteer, a training-free method that improves generation of specified object counts by steering the model's cross-attention hidden states during inference. In our experiments, CountSteer improved object-count accuracy by about 4% without compromising visual quality, demonstrating a simple yet effective step toward more controllable and semantically reliable text-to-image generation.


翻译:文本到图像扩散模型能够生成逼真且连贯的图像,但在遵循文本中的数值指令方面常常失败,这揭示了语言与视觉表示之间的差距。有趣的是,我们发现这些模型并非完全对数字视而不见——它们隐式地意识到自身的计数准确性,因为其内部信号会根据输出是否满足指定数量而发生一致性的变化。这一观察表明,模型已经编码了数值正确性的潜在概念,可以利用这一概念来更精确地引导生成。基于这一直觉,我们提出了CountSteer,这是一种无需训练的方法,通过在推理过程中引导模型的交叉注意力隐藏状态,来改进指定对象数量的生成。在我们的实验中,CountSteer将对象计数准确性提高了约4%,且未损害视觉质量,这为实现更可控和语义可靠的文本到图像生成迈出了简单而有效的一步。

0
下载
关闭预览

相关内容

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员