标题：层次目录生成在文献综述中的应用：一个基准研究摘要：多文献科学摘要可以从丰富的论文中提取和组织重要信息，并在最近引起了广泛关注。然而，现有的努力集中于生成缺乏清晰和逻辑层次结构的冗长概述。为了缓解这个问题，我们提出了一个被称为文献综述层次目录生成的基本且具有挑战性的任务（HiCatGLR），旨在给定各种参考文献为综述论文生成层次目录。我们精心构建了一个新的英语文献综述层次目录数据集（HiCaD），其中包含13.8k篇文献综述目录和120k篇参考文献，我们通过端到端和流水线方法进行各种实验的基准测试。为了准确评估模型的性能，我们设计了从语义和结构的相似度来评估地面真实性的评估指标。此外，我们广泛的分析验证了我们数据集的高质量和我们评估指标的有效性。此外，我们讨论了这个任务的潜在方向，以激发未来的研究。 (Hierarchical Catalogue Generation for Literature Review: A Benchmark)

翻译：标题：层次目录生成在文献综述中的应用：一个基准研究摘要：多文献科学摘要可以从丰富的论文中提取和组织重要信息，并在最近引起了广泛关注。然而，现有的努力集中于生成缺乏清晰和逻辑层次结构的冗长概述。为了缓解这个问题，我们提出了一个被称为文献综述层次目录生成的基本且具有挑战性的任务（HiCatGLR），旨在给定各种参考文献为综述论文生成层次目录。我们精心构建了一个新的英语文献综述层次目录数据集（HiCaD），其中包含13.8k篇文献综述目录和120k篇参考文献，我们通过端到端和流水线方法进行各种实验的基准测试。为了准确评估模型的性能，我们设计了从语义和结构的相似度来评估地面真实性的评估指标。此外，我们广泛的分析验证了我们数据集的高质量和我们评估指标的有效性。此外，我们讨论了这个任务的潜在方向，以激发未来的研究。

Kun Zhu,Xiaocheng Feng,Xiachong Feng,Yingsheng Wu,Bing Qin

Multi-document scientific summarization can extract and organize important information from an abundant collection of papers, arousing widespread attention recently. However, existing efforts focus on producing lengthy overviews lacking a clear and logical hierarchy. To alleviate this problem, we present an atomic and challenging task named Hierarchical Catalogue Generation for Literature Review (HiCatGLR), which aims to generate a hierarchical catalogue for a review paper given various references. We carefully construct a novel English Hierarchical Catalogues of Literature Reviews Dataset (HiCaD) with 13.8k literature review catalogues and 120k reference papers, where we benchmark diverse experiments via the end-to-end and pipeline methods. To accurately assess the model performance, we design evaluation metrics for similarity to ground truth from semantics and structure. Besides, our extensive analyses verify the high quality of our dataset and the effectiveness of our evaluation metrics. Furthermore, we discuss potential directions for this task to motivate future research.

翻译：层次目录生成在文献综述中的应用：一个基准研究多篇论文的科学总结可以从大量的论文中提取和组织重要信息，并已最近引起了广泛关注。然而，现有的努力集中于生成冗长的概述，缺乏清晰和逻辑的层次结构。为了缓解这个问题，我们提出了一个称为文献综述层次目录生成的基本且具有挑战性的任务（HiCatGLR），旨在针对综述论文给定各种参考文献进行层次目录生成。我们精心构建了一个新的英文文献综述层次目录数据集（HiCaD），其中包含13.8k篇文献综述目录和120k篇参考文献，我们通过端到端和流水线方法进行各种实验的基准测试。为了准确评估模型性能，我们设计了从语义和结构相似度进行评估的评估指标。此外，我们广泛的分析验证了我们数据集的高质量和我们评估指标的有效性。此外，我们讨论了这个任务的潜在方向，以激发未来的研究。