This paper reviews the state-of-the-art of language models architectures and strategies for "complex" question-answering (QA, CQA, CPS) with a focus on hybridization. Large Language Models (LLM) are good at leveraging public data on standard problems but once you want to tackle more specific complex questions or problems (e.g. How does the concept of personal freedom vary between different cultures ? What is the best mix of power generation methods to reduce climate change ?) you may need specific architecture, knowledge, skills, methods, sensitive data protection, explainability, human approval and versatile feedback... Recent projects like ChatGPT and GALACTICA have allowed non-specialists to grasp the great potential as well as the equally strong limitations of LLM in complex QA. In this paper, we start by reviewing required skills and evaluation techniques. We integrate findings from the robust community edited research papers BIG, BLOOM and HELM which open source, benchmark and analyze limits and challenges of LLM in terms of tasks complexity and strict evaluation on accuracy (e.g. fairness, robustness, toxicity, ...) as a baseline. We discuss some challenges associated with complex QA, including domain adaptation, decomposition and efficient multi-step QA, long form and non-factoid QA, safety and multi-sensitivity data protection, multimodal search, hallucinations, explainability and truthfulness, temporal reasoning. We analyze current solutions and promising research trends, using elements such as: hybrid LLM architectural patterns, training and prompting strategies, active human reinforcement learning supervised with AI, neuro-symbolic and structured knowledge grounding, program synthesis, iterated decomposition and others.


翻译:本文重点综述了语言模型架构和混合策略在复杂问题回答(CQA, CPS)方面的最新技术发展。大型语言模型(LLM)可以在一些标准问题上利用公共数据,但面对更加特定和复杂的问题(例如:不同文化中个人自由的概念有何不同? 什么是最佳的混合发电方式以减少气候变化?)时,就需要特定的架构、知识、技能、方法、敏感数据保护、可解释性、人工审核和多变的反馈等。ChatGPT和GALACTICA等最近的项目让非专家用户了解了大型语言模型在复杂问答方面的伟大潜力和同样强大的局限性。本文首先综述了必要的技能和评估技术。我们集成了BIG、BLOOM和HELM领域内有影响力的研究成果,这些论文通过开源、基准测试和分析了解了LLM的限制和挑战,如任务的复杂性和仅使用准确性等标准进行评估。我们讨论了一些与复杂问答相关的挑战,包括领域适应、分解和高效多步骤问答、长文本和非事实问答、安全性和多敏感数据保护、多模态搜索、幻觉、可解释性和真实性、时间推理等方面。通过使用混合LLM架构模式、训练和提示策略、人类强化学习与AI监督学习相结合、神经符号和结构化知识还原、程序合成、迭代分解等元素,我们分析了当前的解决方案和前景研究趋势。

0
下载
关闭预览

相关内容

VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
15+阅读 · 2021年12月22日
Arxiv
37+阅读 · 2021年9月28日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员