论文题目:Boosting LLM’s Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning

本文作者:庄祥(浙江大学)、吴槟(伦敦大学学院)、崔稷宇(浙江大学)、冯科华(浙江大学)、李晓彤(浙江大学)、邢华斌(浙江大学)、丁科炎(浙江大学)、张强(浙江大学)、陈华钧(浙江大学)

发表会议:ACL 2025 Main Conference

论文链接:https://arxiv.org/abs/2506.23056

代码链接:https://github.com/HICAI-ZJU/K-MSE

欢迎转载,转载请注明出处****

一、研究背景

分子结构解析(Molecular Structure Elucidation)是从各种光谱数据(如核磁共振NMR、红外IR等)推断分子结构的过程,这对于化学实验分析至关重要。准确的分子结构解析是化学研究中的一个关键步骤,它有助于解释实验结果,推动化学研究的进展。尽管LLMs在许多领域表现出色,但在分子结构解析任务中仍然面临重大挑战,主要原因是它们对专业化学知识的掌握有限。具体来说,这些挑战可以归纳为以下两个方面:

  1. 化学分子结构空间覆盖不足:LLMs在处理分子结构时,往往缺乏对复杂分子结构的全面理解。例如,LLMs可能无法准确识别某些特定的子结构,如含有硫原子的芳香杂环(如噻吩)。这种对分子子结构知识的缺失,限制了LLMs在解析复杂分子结构时的准确性。
  2. 推理过程评估不准确: LLMs在推理过程中的准确评估和纠错对推理能力的提升非常关键。然而,LLMs在这方面的表现并不理想。由于缺乏对化学领域的深入理解,LLMs无法准确评估预测分子与光谱数据之间的一致性,从而无法提供精确的反馈和指导。

鉴于LLMs在分子结构解析任务中的挑战,研究者提出了一个知识增强的推理框架(K-MSE),旨在通过引入外部专业领域知识和专门的评估模型,提升LLMs在这一任务中的表现。 二、研究方法:知识增强的分子结构解析框架K-MSE

2.1 概览

K-MSE框架通过以下两个主要方式提升LLMs的分子结构解析能力:

  1. 构建外部分子子结构知识库:为了弥补LLMs在化学分子结构空间覆盖上的不足,研究者构建了一个包含分子子结构及其文本描述的外部知识库。这些子结构是从一个广泛使用的分子数据库中提取的,涵盖了环状和链状结构。
  2. 专门设计的分子-光谱评分器:为了解决LLMs在评估解决方案时的不准确性问题,研究者设计并训练了一个专门的评分器作为奖励模型。该评分器由分子编码器和光谱编码器组成,能够评估分子结构与光谱数据之间的一致程度,并在推理过程中为解决方案提供准确的奖励分数。

2.2 ****分子子结构知识库知识库中的子结构分为环状结构和链状结构。环状结构是指原子形成的闭合环,如苯环;链状结构是指分子内原子的线性排列。知识库的子结构以SMILES格式表示。此外,知识库还包括这些子结构的自然语言描述,这些描述是通过LLMs自动生成的。为了保证描述的准确性,在生成时结合了外部工具提供的结构信息,如分子式、分子图像和结构三元组。 **2.3 **分子-光谱评分器

该评分器由分子编码器和光谱编码器 组成。分子编码器使用图神经网络GIN和多层感知机MLP对分子图和分子指纹进行编码,最终生成分子的嵌入表示 。光谱编码器则对C-NMR和H-NMR数据进行编码,生成光谱的嵌入表示。通过计算和之间的相似度,评分器能够评估分子结构与光谱数据之间的匹配程度。评分器使用对比学习损失进行训练。 **2.4 **基于MCTS的推理框架

K-MSE框架将知识库和评分器整合到基于蒙特卡洛树搜索(MCTS)的推理框架中。在推理过程中,首先从知识库中使用分子-光谱评分器检索与查询光谱最相关的子结构及其描述,然后通过MCTS进行迭代推理。每次迭代包括选择、扩展、评估和回溯四个关键步骤:

  • 选择:使用上置信界树(UCT)作为选择标准,选择一个节点进行扩展。
  • 扩展:对选定节点的当前解决方案进行批判,识别不足之处,并生成新的解决方案作为子节点。
  • 评估:使用分子-光谱评分器计算新生成节点的奖励值。
  • 回溯:将新节点的Q值回溯到其父节点,逐步优化推理过程。

三、实验

实验在MolPuzzle数据集上进行,输入包括IR、C-NMR、H-NMR和分子式,目标是以零样本的方式预测分子的SMILES表示。实验选择了Llama-3.2-11B-Vision-Instruct、GPT-4o-mini、GPT-4o和GPT-o1作为基础模型。实验结果显示,K-MSE方法在所有基础模型上均优于基线方法,特别是在GPT-4o-mini和GPT-4o上,ACC分别提高了0.236和0.300。

成为VIP会员查看完整内容
0

相关内容

微信扫码咨询专知VIP会员