We have witnessed promising progress led by large language models (LLMs) and further vision language models (VLMs) in handling various queries as a general-purpose assistant. VLMs, as a bridge to connect the visual world and language corpus, receive both visual content and various text-only user instructions to generate corresponding responses. Though great success has been achieved by VLMs in various fields, in this work, we ask whether the existing VLMs can act as domain experts, accurately answering marine questions, which require significant domain expertise and address special domain challenges/requirements. To comprehensively evaluate the effectiveness and explore the boundary of existing VLMs, we construct the first large-scale marine VLM dataset and benchmark called MarineEval, with 2,000 image-based question-answering pairs. During our dataset construction, we ensure the diversity and coverage of the constructed data: 7 task dimensions and 20 capacity dimensions. The domain requirements are specially integrated into the data construction and further verified by the corresponding marine domain experts. We comprehensively benchmark 17 existing VLMs on our MarineEval and also investigate the limitations of existing models in answering marine research questions. The experimental results reveal that existing VLMs cannot effectively answer the domain-specific questions, and there is still a large room for further performance improvements. We hope our new benchmark and observations will facilitate future research. Project Page: http://marineeval.hkustvgd.com/


翻译:我们见证了大型语言模型(LLM)以及进一步发展的视觉语言模型(VLM)作为通用助手在处理各类查询方面带来的前景广阔的进展。VLM作为连接视觉世界与语言语料的桥梁,接收视觉内容与各种纯文本用户指令,并生成相应的回应。尽管VLM已在多个领域取得巨大成功,但在本工作中,我们探讨现有VLM是否能作为领域专家,准确回答需要大量领域专业知识并应对特殊领域挑战/需求的海洋问题。为了全面评估现有VLM的有效性并探索其能力边界,我们构建了首个大规模海洋VLM数据集与基准测试,命名为MarineEval,包含2,000个基于图像的问答对。在我们的数据集构建过程中,我们确保了所构建数据的多样性与覆盖度:涵盖7个任务维度和20个能力维度。领域需求被特别整合到数据构建中,并经由相应的海洋领域专家进一步验证。我们在MarineEval上全面基准测试了17个现有VLM,并研究了现有模型在回答海洋研究问题方面的局限性。实验结果表明,现有VLM无法有效回答领域特定问题,其性能仍有很大的提升空间。我们希望我们的新基准测试与观察发现将推动未来的研究。项目页面:http://marineeval.hkustvgd.com/

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员