The scarcity of high-quality, logically annotated video datasets remains a primary bottleneck in advancing Multi-Modal Large Language Models (MLLMs) for the medical domain. Traditional manual annotation is prohibitively expensive and non-scalable, while existing synthetic methods often suffer from stochastic hallucinations and a lack of logical interpretability. To address these challenges, we introduce \textbf{\PipelineName}, a novel neuro-symbolic data engineering framework that formalizes benchmark synthesis as a deterministic graph traversal process. Unlike black-box generative approaches, Med-CRAFT extracts structured visual primitives (e.g., surgical instruments, anatomical boundaries) from raw video streams and instantiates them into a dynamic Spatiotemporal Knowledge Graph. By anchoring query generation to valid paths within this graph, we enforce a rigorous Chain-of-Thought (CoT) provenance for every synthesized benchmark item. We instantiate this pipeline to produce M3-Med-Auto, a large-scale medical video reasoning benchmark exhibiting fine-grained temporal selectivity and multi-hop logical complexity. Comprehensive evaluations demonstrate that our automated pipeline generates query workloads with complexity comparable to expert-curated datasets. Furthermore, a logic alignment analysis reveals a high correlation between the prescribed graph topology and the reasoning steps of state-of-the-art MLLMs, validating the system's capability to encode verifiable logic into visual-linguistic benchmarks. This work paves the way for scalable, low-cost construction of robust evaluation protocols in critical domains.


翻译:高质量、带逻辑标注的视频数据集的稀缺,仍然是推动多模态大语言模型在医学领域发展的主要瓶颈。传统的人工标注成本高昂且难以扩展,而现有的合成方法常受随机幻觉和逻辑可解释性不足的困扰。为解决这些挑战,我们提出了 Med-CRAFT,一种新颖的神经符号数据工程框架,它将基准合成形式化为一个确定性的图遍历过程。与黑盒生成方法不同,Med-CRAFT 从原始视频流中提取结构化视觉基元(如手术器械、解剖边界),并将其实例化为动态时空知识图谱。通过将查询生成锚定在该图谱内的有效路径上,我们为每个合成的基准项强制执行严格的思维链溯源。我们实例化该流程以生成 M3-Med-Auto,这是一个展现细粒度时间选择性和多跳逻辑复杂性的大规模医学视频推理基准。综合评估表明,我们的自动化流程生成的查询工作负载,其复杂性与专家策划的数据集相当。此外,逻辑对齐分析揭示了规定的图谱拓扑结构与先进多模态大语言模型的推理步骤之间存在高度相关性,验证了该系统将可验证逻辑编码到视觉语言基准中的能力。这项工作为在关键领域进行可扩展、低成本的稳健评估协议构建铺平了道路。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员