Large Language Models (LLMs) have made significant progress in recent years, achieving remarkable results in question-answering tasks (QA). However, they still face two major challenges: hallucination and outdated information after the training phase. These challenges take center stage in critical domains like climate change, where obtaining accurate and up-to-date information from reliable sources in a limited time is essential and difficult. To overcome these barriers, one potential solution is to provide LLMs with access to external, scientifically accurate, and robust sources (long-term memory) to continuously update their knowledge and prevent the propagation of inaccurate, incorrect, or outdated information. In this study, we enhanced GPT-4 by integrating the information from the Sixth Assessment Report of the Intergovernmental (IPCC AR6), the most comprehensive, up-to-date, and reliable source in this domain. We present our conversational AI prototype, available at www.chatclimate.ai/ipcc and demonstrate its ability to answer challenging questions accurately in three different QA scenarios: asking from 1) GPT-4, 2) chatIPCC, and 3) hybrid chatIPCC. The answers and their sources were evaluated by our team of IPCC authors, who used their expert knowledge to score the accuracy of the answers from 1 (very-low) to 5 (very-high). The evaluation showed that the hybrid chatIPCC provided more accurate answers, highlighting the effectiveness of our solution. This approach can be easily scaled for chatbots in specific domains, enabling the delivery of reliable and accurate information.


翻译:近年来,大型语言模型(LLM)在问答任务(QA)中取得了令人瞩目的成就。然而,他们仍面临两个主要挑战:讲鬼话和在训练阶段后过时的信息。在气候变化等关键领域,从可靠的源中在有限时间内获取准确和最新信息至关重要且困难,因此需要提供LLMs以获得外部、科学准确和强大的资源(长时记忆)来持续更新其知识,以防止不准确、不正确或过时信息的传播。本研究在GPT-4的基础上整合了政府间气候变化专门委员会(IPCC)第六次评估报告(AR6)的信息来提升其能力。我们展示了我们的对话式AI原型,可在www.chatclimate.ai/ipcc 上使用,并演示其在三种不同的QA场景下回答挑战性问题的能力: 1)来自GPT-4, 2)chatIPCC, 和3 )混合式chatIPCC。答案及其来源由IPCC作者组成的评估团队进行评估,他们使用自己的专业知识将答案的准确性评分为1 (非常低)到5(非常高)。评估表明,混合式chatIPCC提供了更准确的答案,突显出我们的解决方案的有效性。这种方法可以很容易地扩展到特定领域的聊天机器人,从而实现可靠和准确的信息传递。

0
下载
关闭预览

相关内容

北京时间2023年3月15日凌晨,ChatGPT开发商OpenAI 发布了发布了全新的多模态预训练大模型 GPT-4,可以更可靠、更具创造力、能处理更细节的指令,根据图片和文字提示都能生成相应内容。 具体来说来说,GPT-4 相比上一代的模型,实现了飞跃式提升:支持图像和文本输入,拥有强大的识图能力;大幅提升了文字输入限制,在ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以处理一些更加细节的指令;回答准确性也得到了显著提高。
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT
专知会员服务
27+阅读 · 2022年2月20日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年8月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员