Scientific discovery increasingly depends on efficient experimental optimization to navigate vast design spaces under time and resource constraints. Traditional approaches often require extensive domain expertise and feature engineering. While large language models, with their vast scientific knowledge, circumvent the feature engineering limitations, they lack the calibrated uncertainty estimates required for high-stakes decision making. Hence, current optimization methods force a choice between domain knowledge and reliability, with no principled approach that affords both. In this work, we show that training language models through the uncertainty-aware objectives of traditional optimization methods enables their use as reliable optimizers guided by natural language. By teaching LLMs from experimental outcomes under uncertainty, we transform their overconfidence from a fundamental limitation into a precise calibration mechanism. Applied to Buchwald-Hartwig reactions, a cornerstone of pharmaceutical synthesis, our method nearly doubles the discovery rate of high-yielding reaction conditions, from 24% to 43% in 50 experimental iterations starting from 10 unsuccessful conditions. Across 19 diverse optimization problems spanning organic synthesis, materials science and catalysis, process chemistry, and molecular design, our approach ranks first on average, establishing a new paradigm for reliable, uncertainty-guided optimization with LLMs. Our approach can accelerate discovery by lowering the barrier to using powerful optimization methods, replacing the need for domain-specific feature engineering with more accessible natural language interfaces. These findings highlight that ensuring reliability through principled uncertainty quantification is critical for realizing the full potential of AI-guided experimentation.


翻译:科学发现日益依赖于高效的实验优化,以在时间和资源约束下探索广阔的设计空间。传统方法通常需要深入的领域专业知识和特征工程。尽管大型语言模型凭借其丰富的科学知识规避了特征工程的限制,但它们缺乏高风险决策所需的校准不确定性估计。因此,当前的优化方法迫使人们在领域知识和可靠性之间做出选择,缺乏一种能够同时兼顾两者的原则性方法。在本研究中,我们证明,通过传统优化方法的不确定性感知目标训练语言模型,能够使其成为基于自然语言引导的可靠优化器。通过让大型语言模型在不确定性条件下学习实验结果,我们将其过度自信这一根本局限转化为精确的校准机制。应用于布赫瓦尔德-哈特维希反应——药物合成的基石之一,我们的方法在50次实验迭代中,从10个无效条件出发,将高产率反应条件的发现率从24%提升至近43%。在涵盖有机合成、材料科学与催化、过程化学以及分子设计的19个多样化优化问题中,我们的方法平均排名第一,为基于大型语言模型的可靠、不确定性引导优化建立了新范式。该方法通过降低使用强大优化方法的门槛,以更易访问的自然语言界面替代特定领域的特征工程需求,从而加速科学发现。这些发现强调,通过原则性的不确定性量化确保可靠性,对于实现人工智能引导实验的全部潜力至关重要。

0
下载
关闭预览

相关内容

【ACL2023】从语言模型生成文本,140页ppt
专知会员服务
46+阅读 · 2023年7月10日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员