Drag-based image editing using generative models provides intuitive control over image structures. However, existing methods rely heavily on manually provided masks and textual prompts to preserve semantic fidelity and motion precision. Removing these constraints creates a fundamental trade-off: visual artifacts without masks and poor spatial control without prompts. To address these limitations, we propose DirectDrag, a novel mask- and prompt-free editing framework. DirectDrag enables precise and efficient manipulation with minimal user input while maintaining high image fidelity and accurate point alignment. DirectDrag introduces two key innovations. First, we design an Auto Soft Mask Generation module that intelligently infers editable regions from point displacement, automatically localizing deformation along movement paths while preserving contextual integrity through the generative model's inherent capacity. Second, we develop a Readout-Guided Feature Alignment mechanism that leverages intermediate diffusion activations to maintain structural consistency during point-based edits, substantially improving visual fidelity. Despite operating without manual mask or prompt, DirectDrag achieves superior image quality compared to existing methods while maintaining competitive drag accuracy. Extensive experiments on DragBench and real-world scenarios demonstrate the effectiveness and practicality of DirectDrag for high-quality, interactive image manipulation. Project Page: https://frakw.github.io/DirectDrag/. Code is available at: https://github.com/frakw/DirectDrag.


翻译:基于生成模型的拖拽式图像编辑为用户提供了对图像结构的直观控制。然而,现有方法严重依赖手动提供的掩码和文本提示来保持语义保真度和运动精度。消除这些约束会带来一个根本性的权衡:无掩码时会产生视觉伪影,而无提示时则空间控制能力较差。为应对这些局限,我们提出了DirectDrag,一种新颖的无掩码、无提示编辑框架。DirectDrag能够以最少的用户输入实现精确高效的操作,同时保持高图像保真度和准确的点对齐。DirectDrag引入了两项关键创新。首先,我们设计了一个自动软掩码生成模块,该模块能够从点位移中智能推断可编辑区域,自动沿运动路径定位变形,同时利用生成模型的内在能力保持上下文完整性。其次,我们开发了一种读出引导的特征对齐机制,该机制利用扩散过程中的中间激活信息,在基于点的编辑过程中保持结构一致性,从而显著提升视觉保真度。尽管无需手动掩码或提示,DirectDrag在保持竞争力的拖拽精度的同时,相比现有方法实现了更优的图像质量。在DragBench和真实场景上的大量实验证明了DirectDrag在高质量、交互式图像处理方面的有效性和实用性。项目页面:https://frakw.github.io/DirectDrag/。代码发布于:https://github.com/frakw/DirectDrag。

0
下载
关闭预览

相关内容

语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员