边界框论文 - 专知

会员服务 ·

边界框

MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling

Arxiv

0+阅读 · 12月22日

Point What You Mean: Visually Grounded Instruction Policy

Arxiv

0+阅读 · 12月22日

Tight Robustness Certification through the Convex Hull of $\ell_0$ Attacks

Arxiv

0+阅读 · 11月13日

NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation

Arxiv

0+阅读 · 11月14日

NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation

Arxiv

0+阅读 · 12月2日

RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning

Arxiv

0+阅读 · 11月4日

More than Segmentation: Benchmarking SAM 3 for Segmentation, 3D Perception, and Reconstruction in Robotic Surgery

Arxiv

0+阅读 · 12月8日

ORTHOCUB: integral and differential cubature rules by orthogonal moments

Arxiv

0+阅读 · 12月5日

GUIDE: Gaussian Unified Instance Detection for Enhanced Obstacle Perception in Autonomous Driving

Arxiv

0+阅读 · 11月17日

BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations

Arxiv

0+阅读 · 11月26日

BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations

Arxiv

0+阅读 · 12月1日

Fracture Morphology Classification: Local Multiclass Modeling for Multilabel Complexity

Arxiv

0+阅读 · 12月16日

Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning

Arxiv

0+阅读 · 11月26日

ClapperText: A Benchmark for Text Recognition in Low-Resource Archival Documents

Arxiv

0+阅读 · 10月17日

StereoSync: Spatially-Aware Stereo Audio Generation from Video

Arxiv

0+阅读 · 10月7日

参考链接

微信扫码咨询专知VIP会员