大型语言模型(Large Language Models, LLMs)在各类自然语言任务上取得了显著成果,近年来也积极拓展至多模态领域与资源受限环境。然而,现有方法多依赖高成本的监督式微调,或假设训练与推理条件相同,因此在面对未见模态、有限数据或计算资源受限情境时,泛化能力仍存在显著限制。
本论文系统性地探讨提升大型语言模型在现实环境中可用性的途径,聚焦于泛化能力与资源限制下的适应性。首先,提出一套以文本为中心的多模态对齐框架,将文本、图像、表格及波形等异质模态转换为自然语言描述,使模型能够通过即时提示学习(in-context learning)应对未见或动态变化的模态组合,无需重新训练。为强化模型在面对噪声或缺失模态时的鲁棒性,本文亦设计出对抗式提示(adversarial prompting)技术,在提示层级生成语义挑战性高的扰动数据,以提升模型韧性。
除多模态对齐外,论文亦探讨推理阶段的优化策略,透过提示搜索与不确定性量化,在无需额外训练的情况下提升模型效能,提供相较于传统扩大参数规模或重新训练之外的另一种高效路径。同时,本研究针对资源稀缺领域,如 Verilog 程序代码生成,设计出具有正确性保证的合成数据生成流程及逻辑增强型推理模型,在有限数据条件下达成最新最佳表现。
综合上述,本文提出的方法在对齐、优化与合成数据生成三大方面,皆展现了在不同模态、资源限制与应用场景下,显著提升大型语言模型适用性、扩展性与效率的潜力。
关键词:大型语言模型、多模态对齐、代码生成、推理模型、提示词优化、推理阶段扩展、语言不确定性、硬件描述语言、Verilog