Images shared on social media often expose geographic cues. While early geolocation methods required expert effort and lacked generalization, the rise of Large Vision Language Models (LVLMs) now enables accurate geolocation even for ordinary users. However, existing approaches are not optimized for this task. To explore the full potential and associated privacy risks, we present Geo-Detective, an agent that mimics human reasoning and tool use for image geolocation inference. It follows a procedure with four steps that adaptively selects strategies based on image difficulty and is equipped with specialized tools such as visual reverse search, which emulates how humans gather external geographic clues. Experimental results show that GEO-Detective outperforms baseline large vision language models (LVLMs) overall, particularly on images lacking visible geographic features. In country level geolocation tasks, it achieves an improvement of over 11.1% compared to baseline LLMs, and even at finer grained levels, it still provides around a 5.2% performance gain. Meanwhile, when equipped with external clues, GEO-Detective becomes more likely to produce accurate predictions, reducing the "unknown" prediction rate by more than 50.6%. We further explore multiple defense strategies and find that Geo-Detective exhibits stronger robustness, highlighting the need for more effective privacy safeguards.


翻译:社交媒体上共享的图像常暴露地理线索。早期地理位置推断方法需专家介入且泛化能力不足,而大型视觉语言模型(LVLMs)的兴起使得普通用户也能实现精准定位。然而,现有方法尚未针对此任务进行优化。为探索其潜力及关联的隐私风险,本文提出Geo-Detective——一种模拟人类推理与工具使用机制进行图像地理位置推断的智能体。该智能体遵循四步流程,能根据图像复杂度自适应选择策略,并配备视觉反向搜索等专用工具,以模拟人类获取外部地理线索的行为。实验结果表明,GEO-Detective在整体性能上优于基线大型视觉语言模型(LVLMs),尤其在缺乏显性地理特征的图像上表现突出。在国家层级定位任务中,其相较基线LLMs实现超过11.1%的性能提升;即使在更细粒度层级,仍能保持约5.2%的性能增益。同时,当配备外部线索时,GEO-Detective能显著提升预测准确率,将“未知”预测率降低超过50.6%。本文进一步探讨多种防御策略,发现Geo-Detective展现出更强的鲁棒性,这凸显了开发更有效隐私保护机制的必要性。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员