Chat models, such as ChatGPT, have shown impressive capabilities and have been rapidly adopted across numerous domains. However, these models are only accessible through a restricted API, creating barriers for new research and progress in the field. We propose a pipeline that can automatically generate a high-quality multi-turn chat corpus by leveraging ChatGPT to engage in a conversation with itself. Subsequently, we employ parameter-efficient tuning to enhance LLaMA, an open-source large language model. The resulting model, named Baize, demonstrates good performance in multi-turn dialogues with guardrails that minimize potential risks. The Baize models and data are released for research purposes only at https://github.com/project-baize/baize. An online demo is also available at https://huggingface.co/spaces/project-baize/baize-lora-7B.


翻译:聊天模型(例如ChatGPT)已经显示出了令人印象深刻的能力,并已在众多领域迅速得到采纳。但是,这些模型仅通过受限API进行访问,从而为新研究和领域进展制造了障碍。我们提出了一个流程,可以通过利用ChatGPT与自己对话来自动生成高质量的多轮对话语料库。随后,我们采用低参数调优来增强开源大型语言模型LLaMA。结果模型被命名为Baize,与最小化潜在风险的防卫栏一起,在多轮对话中表现出良好的性能。Baize模型和数据仅用于研究目的,请在https://github.com/project-baize/baize上获取。在线演示也可在https://huggingface.co/spaces/project-baize/baize-lora-7B上获得。

1
下载
关闭预览

相关内容

百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员