该工作提出了首个中文科学文献数据集-CSL,包含约 40 万条中文论文,具有广泛的领域分类和细粒度学科标签,能用于构建多种 NLP 任务,例如文本摘要、关键词生成和文本分类等。
为了填补这一空白,本文提出了 CSL-大规模中文科学文献数据集,包含约 40 万篇中文论文元数据(标题、摘要、关键词以及学科领域标签)。此外,为了提供中文科学文献基准测评,本文设计了 4 个下游任务数据集,包括文本摘要、关键词生成、论文门类分类(13 类)和论文学科分类(67 类)。
1. 整理和公开首个中文科学文献数据集 CSL,可以被用作预训练语料或学术相关 NLP 下游任务数据;
2. 基于 CSL,提供中文科学文献基准测评,用于评估语言模型处理科学文献时的性能;
3. 提供中文 text-to-text 语言模型作为基线模型,实验结果展示了目前的 NLP 方法对中文科学文献理解的局限。
1. 更广的领域分布。已有的科学文献数据通常针对某个或某些领域,而 CSL 几乎包含所有中文研究领域,并且具有更细粒度的标注。
2. 新的数据源。已有的资源从通常从 Arxiv、PubMed 等数据源中收集。CSL 源自中文核心期刊,对现有数据资源产生互补。
3. 更高的质量和准确性。现有的数据源例如 Arxiv 的一些论文没有经过同行评审,而 CSL 源自中文核心期刊的已发表论文,因此潜在地具有更高质量。在另一方面,CSL 直接获取论文元数据,不经过 PDF/LaTeX 解析,准确率更高。
学术论文的元数据包含丰富的语义信息,使它成为一种天然有标注数据。预测这些信息之间的相互关系可以构成许多 NLP 任务,例如用论文摘要预测标题可以视为一个文本摘要任务;用论文标题预测所属领域则是文本分类任务。这样的组合可以有很多种,如下图所示:
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧