成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
OCR
关注
1
综合
百科
VIP
热门
动态
论文
精华
DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives
Arxiv
0+阅读 · 11月15日
DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives
Arxiv
0+阅读 · 11月14日
Enhancing ASR Performance through OCR Word Frequency Analysis: Theoretical Foundations
Arxiv
0+阅读 · 11月9日
TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models
Arxiv
1+阅读 · 11月7日
Handwriting Recognition in Historical Documents with Multimodal LLM
Arxiv
1+阅读 · 10月31日
Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster
Arxiv
0+阅读 · 10月12日
Chronicling Germany: An Annotated Historical Newspaper Dataset
Arxiv
0+阅读 · 10月25日
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction
Arxiv
0+阅读 · 10月4日
TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens
Arxiv
0+阅读 · 10月7日
JaPOC: Japanese Post-OCR Correction Benchmark using Vouchers
Arxiv
0+阅读 · 9月30日
MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features
Arxiv
0+阅读 · 9月25日
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
Arxiv
0+阅读 · 8月30日
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models
Arxiv
0+阅读 · 8月26日
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
Arxiv
0+阅读 · 9月10日
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
Arxiv
0+阅读 · 9月4日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top