Large-language models (LLMs) have recently shown strong performance in tasks across domains, but struggle with chemistry-related problems. Moreover, these models lack access to external knowledge sources, limiting their usefulness in scientific applications. In this study, we introduce ChemCrow, an LLM chemistry agent designed to accomplish tasks across organic synthesis, drug discovery, and materials design. By integrating 13 expert-designed tools, ChemCrow augments the LLM performance in chemistry, and new capabilities emerge. Our evaluation, including both LLM and expert human assessments, demonstrates ChemCrow's effectiveness in automating a diverse set of chemical tasks. Surprisingly, we find that GPT-4 as an evaluator cannot distinguish between clearly wrong GPT-4 completions and GPT-4 + ChemCrow performance. There is a significant risk of misuse of tools like ChemCrow and we discuss their potential harms. Employed responsibly, ChemCrow not only aids expert chemists and lowers barriers for non-experts, but also fosters scientific advancement by bridging the gap between experimental and computational chemistry.


翻译:大型语言模型(LLM)最近在各行业的任务中表现出了强大的性能,但在处理化学相关问题时仍存在困难。此外,这些模型缺乏对外部知识来源的访问,限制了它们在科学应用中的实用性。在本研究中,我们介绍了ChemCrow,一种LLM化学代理,旨在完成有机合成、药物开发和材料设计等任务。通过整合13种专家设计的工具,ChemCrow增强了LLM化学性能,产生了新的功能。我们的评估包括LLM和专家人类评估,证明了ChemCrow在自动执行各种化学任务方面的有效性。令人惊讶的是,我们发现作为评估者的GPT-4无法区分明显错误的GPT-4完成和GPT-4 + ChemCrow性能之间的差异。这些工具的潜在危害非常大,我们讨论它们可能带来的风险。在负责任的使用下,ChemCrow不仅有助于专业化学家并降低非专业人士的门槛,而且通过弥合实验和计算化学之间的差距促进科学进步。

0
下载
关闭预览

相关内容

北京时间2023年3月15日凌晨,ChatGPT开发商OpenAI 发布了发布了全新的多模态预训练大模型 GPT-4,可以更可靠、更具创造力、能处理更细节的指令,根据图片和文字提示都能生成相应内容。 具体来说来说,GPT-4 相比上一代的模型,实现了飞跃式提升:支持图像和文本输入,拥有强大的识图能力;大幅提升了文字输入限制,在ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以处理一些更加细节的指令;回答准确性也得到了显著提高。
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
「知识增强预训练语言模型」最新研究综述
专知会员服务
60+阅读 · 2022年11月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月29日
Towards Reasoning in Large Language Models: A Survey
Arxiv
0+阅读 · 2023年5月26日
Large Language Models as Tool Makers
Arxiv
1+阅读 · 2023年5月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员