Large language models (LLMs) have shown promise for scientific data extraction from publications, but rely on manual prompt refinement. We present an expert-grounded automatic prompt optimization framework that enhances LLM entity extraction reliability. Using high-entropy alloy lattice constant extraction as a testbed, we optimized prompts for Claude 3.5 Sonnet through feedback cycles on seven expert-annotated publications. Despite a modest optimization budget, recall improved from 0.27 to > 0.9, demonstrating that a small, expert-curated dataset can yield significant improvements. The approach was applied to extract lattice constants from 2,267 publications, yielding data for 1,861 compositions. The optimized prompt transferred effectively to newer models: Claude 4.5 Sonnet, GPT-5, and Gemini 2.5 Flash. Analysis revealed three categories of LLM mistakes: contextual hallucination, semantic misinterpretation, and unit conversion errors, emphasizing the need for validation protocols. These results establish feedback-guided prompt optimization as a low-cost, transferable methodology for reliable scientific data extraction, providing a scalable pathway for complex LLM-assisted research tasks.


翻译:大语言模型(LLM)在从科学出版物中提取数据方面展现出潜力,但依赖于手动提示优化。我们提出了一种基于专家知识的自动提示优化框架,该框架提升了LLM实体提取的可靠性。以高熵合金晶格常数提取为测试平台,我们通过对七篇专家标注的出版物进行多轮反馈循环,优化了Claude 3.5 Sonnet模型的提示。尽管优化预算有限,召回率从0.27提升至>0.9,这表明一个由专家精心策划的小型数据集可以带来显著改进。该方法被应用于从2,267篇出版物中提取晶格常数,为1,861种合金成分生成了数据。优化后的提示能有效迁移到更新的模型:Claude 4.5 Sonnet、GPT-5和Gemini 2.5 Flash。分析揭示了LLM的三类错误:上下文幻觉、语义误解和单位转换错误,强调了验证协议的必要性。这些结果确立了反馈引导的提示优化作为一种低成本、可迁移的方法论,可用于可靠的科学数据提取,为复杂的LLM辅助研究任务提供了一条可扩展的路径。

0
下载
关闭预览

相关内容

Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员