Multi-model routing has evolved from an engineering technique into essential infrastructure, yet existing work lacks a systematic, reproducible benchmark for evaluating vision-language models (VLMs). We present VL-RouterBench to assess the overall capability of VLM routing systems systematically. The benchmark is grounded in raw inference and scoring logs from VLMs and constructs quality and cost matrices over sample-model pairs. In scale, VL-RouterBench covers 14 datasets across 3 task groups, totaling 30,540 samples, and includes 15 open-source models and 2 API models, yielding 519,180 sample-model pairs and a total input-output token volume of 34,494,977. The evaluation protocol jointly measures average accuracy, average cost, and throughput, and builds a ranking score from the harmonic mean of normalized cost and accuracy to enable comparison across router configurations and cost budgets. On this benchmark, we evaluate 10 routing methods and baselines and observe a significant routability gain, while the best current routers still show a clear gap to the ideal Oracle, indicating considerable room for improvement in router architecture through finer visual cues and modeling of textual structure. We will open-source the complete data construction and evaluation toolchain to promote comparability, reproducibility, and practical deployment in multimodal routing research.


翻译:多模型路由已从一项工程技术演变为关键基础设施,然而现有工作缺乏用于评估视觉语言模型(VLM)的系统化、可复现的基准。我们提出VL-RouterBench,以系统化地评估VLM路由系统的整体能力。该基准基于VLM的原始推理与评分日志构建,并在样本-模型对上构建质量与成本矩阵。在规模上,VL-RouterBench涵盖3个任务组中的14个数据集,总计30,540个样本,并包含15个开源模型与2个API模型,共产生519,180个样本-模型对,输入输出总token量为34,494,977。评估协议联合测量平均准确率、平均成本与吞吐量,并通过归一化成本与准确率的调和平均数构建排名分数,以实现跨路由配置与成本预算的比较。在此基准上,我们评估了10种路由方法与基线,观察到显著的路由能力增益,而当前最佳路由器仍与理想Oracle存在明显差距,表明通过更精细的视觉线索与文本结构建模,路由器架构仍有巨大改进空间。我们将开源完整的数据构建与评估工具链,以促进多模态路由研究中的可比性、可复现性及实际部署。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员