©作者 | 郑少辉
学校 | 苏州大学硕士生
研究方向 | 跨语言摘要
对于给定源语言编写的文档,跨语言摘要的目的是用不同的目标语言生成相应的摘要。在全球化的背景下,跨语言摘要可以帮助人们从他们不熟悉的语言的文档中获取关键信息,从而提高信息获取的效率。因此,这一任务变得更加重要,并引起了广泛的研究关注。然而,目前的跨语言摘要工作通常集中于短文本场景。
本文构建了第一个针对长文档场景下的跨语言摘要数据集 Perseus,包含 94k 个中文科技论文以及其对应的英文摘要。
我们的数据集涉及四大学科,包括工程应用、自然科学、农业科学以及医药科学,文档的平均长度达到 2872.9 个汉字。
相关工作已经被 WSDM 2023 接收。
论文标题:
Long-Document Cross-Lingual Summarization
https://github.com/LearnItBoy/Perseus
现有的跨语言摘要数据集文档长度相对来说都比较短,比如常用的数据集 Zh2EnSum [1],它的文档长度平均只有 103.7 个汉字,而相对来说文档长度较长的 En2ZhSum [1],它的平均文档长度也只有 755.0 个单词左右,远无法称为长文档。长文档通常包含上千个字词,比起短文档,它包含更多的信息与细节。构建一个长文档跨语言系统可以帮助人们快速理解长文档的内容,在实际场景中具有重大的意义。然而,由于缺乏相应的数据集,该任务仍未得到充分的探索。
为了跨语言摘要在长文档上的发展,我们构建了第一个长文档跨语言摘要数据集 Perseus。我们通过爬取中文科技论文网站来获取到大量的科技论文资源,然后使用大量的解析方法与清理规则来对这些资源进行处理。最后得到 94k 个<中文文档,中文摘要,英文摘要>三元组。如图 1 所示是数据集的一个例子。除此之外我们根据 SportsSum [2] 这个体育赛事摘要数据集构建了一个科技论文领域外的测试集用来验证在 Perseus 上训练的模型的泛化性。
表 1 是 Perseus 数据集的基本信息以及其他跨语言摘要数据集的信息的对比。可以看出我们的数据集的文档长度远远超过现有的跨语言摘要数据集,并且目标摘要的长度也大于现有数据集。同时我们的数据集有着最高的压缩率,这意味着对跨语言摘要模型提取精炼内容的能力提出了更高的要求。
▲ 表1 数据集的基本信息
为了验证我们的数据集是否可行,我们在 Perseus 上进行了大量的实验。我们采用了两种范式来进行实验,summarize-then-translate 的 pipeline 方法以及端到端 (end-to-end) 方法。其中 summarize-then-translate 分成了 extract-then-translate (ext-trans) 和 abstract-then-translate (abs-trans) 两种方法。采用的模型以及结果如表 2。
通过实验我们发现,abs-trans 的方法效果普遍好于 ext-trans 的方法,这是因为 abstractor 可以更灵活地根据文档中的重要句子生成新词或短语,而 extractor 不能对提取的句子进行任何修改。此外,pipeline 的方法中,模型的最后效果的好坏和采用的翻译模型的好坏高度相关。因此翻译模型的性能,特别是在长文档中错误积累倍数增加的情况下,尤为重要。
End-to-end 的方法在几乎所有的指标中都获得了最好的性能,这是由于 mLED [3] 方法以端到端方式进行翻译和摘要训练,不会出现错误传播问题。
我们随机抽取了 mLED 模型在测试集上的两百条结果并分析出主要的错误类型以及比例,如表 3 所示:1)信息缺失;2)信息冗余;3)生成信息不忠于原文;4)生成语义不明。
长文档跨语言摘要中的信息缺失和冗余的问题十分严重,这是由于随着文档的长度以及文档与摘要的压缩率的增加,文档的关键信息在文档中的分布变得稀疏,模型从文章中提取关键信息的难度就越来越高。
对于生成的信息不忠于原文的问题。例如,一份参考摘要称:“Fifty-eight patients with subaortic stenosis were treated surgically in our center from December 1996 to October 2019。”但生成的摘要是“The clinical data of 13 patients with congenital heart disease were retrospectively analyzed”。错误的引用主要是由远程依赖问题引起的。在生成摘要时,该模型需要跨越长距离地融合信息。然而,随着距离的增加,远程信息变得越来越模糊,导致容易生成错误的信息。
mLED 生成语义不明句子,例如“data mining is an important content of data mining.”“the results provide us with a basis to judge whether the sub-time series of time series with increasing and decreasing is the sub-time series with great increasing and decreasing.” 这些句子让人难以理解,通常涉及语法错误。模型处理长文档时的远程依赖性问题是造成这个错误的原因之一。此外,这个错误也暴露了当前生成模型在生成长文本方面的不足。
在本文中,我们提出了长文档跨语言摘要任务,并构建了第一个长文档跨语言摘要数据集 Perseus。该数据集具有文档长、摘要长、压缩率高的特点,为跨语言摘要提出了新的挑战。为了评估在我们的数据集上训练的长文档跨语言摘要模型的泛化性,我们还提供了一个体育领域的领域外测试集。
[1] Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, and Chengqing Zong. 2019. NCLS: Neural Cross-Lingual Summarization. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 3054–3064. https://doi.org/10.18653/v1/D19-1302
[2] Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, and Zhigang Chen. 2022. Knowledge Enhanced Sports Game Summarization. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 1045–1053. https://doi.org/10.1145/3488560.3498405
[3] Iz Beltagy, Matthew E Peters, and Arman Cohan. 2020. Longformer: The longdocument transformer. arXiv preprint arXiv:2004.05150 (2020).
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧