Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.


翻译:给定一个源语言文档,跨语言摘要 (CLS) 旨在生成不同目标语言的摘要。近年来,大型语言模型 (LLM),如 GPT-3.5、ChatGPT 和 GPT-4 的出现引起了计算语言学界的广泛关注。然而,LLM 在 CLS 上的性能尚未得知。本文通过各种提示来引导 LLM 以不同范式(即端到端和流水线)执行零-shot CLS,并对生成的摘要进行初步评估。我们发现,ChatGPT 和 GPT-4 初始更倾向于生成详细信息的长度摘要。这两种 LLM 可以在交互式提示的帮助下进一步平衡信息量和简洁性,从而显著提高它们的 CLS 性能。在三个广泛使用的 CLS 数据集上的实验结果显示,GPT-4 实现了最先进的零-shot CLS 性能,并与精细调整的 mBART-50 相比竞争。此外,我们还发现一些多语和双语 LLM(即 BLOOMZ、ChatGLM-6B、Vicuna-13B 和 ChatYuan)具有有限的零-shot CLS 能力。由于 CLS 的复合性,需要模型同时执行摘要和翻译,因此即使对于 LLM,以零-shot 方式完成此任务也是一项挑战。因此,我们真诚地希望并建议未来的 LLM 研究能够将 CLS 用作测试平台。

1
下载
关闭预览

相关内容

百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
专知会员服务
54+阅读 · 2021年2月2日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
25+阅读 · 2020年11月23日
EMNLP 2022 | ClidSum: 跨语言对话摘要
PaperWeekly
3+阅读 · 2022年11月25日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月22日
Understanding HTML with Large Language Models
Arxiv
0+阅读 · 2023年5月19日
VIP会员
相关VIP内容
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
专知会员服务
54+阅读 · 2021年2月2日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
25+阅读 · 2020年11月23日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员