Subject classification schemes are foundational to the organization, evaluation, and navigation of scientific knowledge. While expert-curated systems like Scopus provide widely used taxonomies, they often suffer from coarse granularity, subjectivity, and limited adaptability to emerging interdisciplinary fields. Data-driven alternatives based on citation networks show promise but lack rigorous, external validation against the semantic content of scientific literature. Here, we propose a novel quantitative framework that leverages classification tasks to evaluate the effectiveness of journal classification schemes. Using over 23 million paper abstracts, we demonstrate that labels derived from k-means clustering on Periodical2Vec (P2V)--a periodical embedding learned from paper-level citations--yield significantly higher classification performance than both Scopus and other data-driven baselines (e.g., citation, co-citation, and Node2Vec variants). By comparing journal partitions across classification schemes, two structural patterns emerge on the map of science: (1) the reorganization of disciplinary boundaries--splitting overly broad categories (e.g., "Medicine" into "Oncology", "Cardiology", and other specialties) while merging artificially fragmented ones (e.g., "Chemistry" and "Chemical Engineering"); and (2) the identification of coherent interdisciplinary clusters--such as "Biomedical Engineering", "Medical Ethics", and "Information Management"--that are dispersed across multiple categories but unified in citation space. These findings underscore that citation-derived periodical embeddings not only outperform traditional taxonomies in predictive validity but also offer a dynamic, fine-grained map of science that better reflects both the specialization and interdisciplinarity inherent in contemporary research.


翻译:学科分类体系是科学知识组织、评估与导航的基础。虽然专家构建的系统(如Scopus)提供了广泛使用的分类法,但其常存在粒度粗糙、主观性强以及对新兴跨学科领域适应性有限等问题。基于引文网络的数据驱动替代方案虽前景可观,但缺乏针对科学文献语义内容的严格外部验证。本文提出一种新颖的定量框架,通过分类任务评估期刊分类体系的有效性。基于超过2300万篇论文摘要,我们证明:通过在Periodical2Vec(P2V)——一种从论文级引文关系学习的期刊嵌入——上进行k均值聚类生成的标签,其分类性能显著优于Scopus及其他数据驱动基线方法(如引文网络、共引网络及Node2Vec变体)。通过比较不同分类体系下的期刊划分,科学版图中呈现出两种结构模式:(1)学科边界的重组——拆分过宽泛的类别(如将“医学”细分为“肿瘤学”“心脏病学”等专业领域),同时合并人为割裂的领域(如“化学”与“化学工程”);(2)识别连贯的跨学科集群——例如“生物医学工程”“医学伦理学”与“信息管理”——这些集群在传统分类中分散于多个类别,但在引文空间中呈现统一性。这些发现表明,基于引文的期刊嵌入不仅在预测效度上优于传统分类法,更能提供动态、细粒度的科学图谱,更准确地反映当代研究中固有的专业化与跨学科特性。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【WSDM2024】DiffKG:面向推荐的知识图谱扩散模型
专知会员服务
28+阅读 · 2024年1月17日
专知会员服务
22+阅读 · 2021年8月20日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2025年12月28日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【WSDM2024】DiffKG:面向推荐的知识图谱扩散模型
专知会员服务
28+阅读 · 2024年1月17日
专知会员服务
22+阅读 · 2021年8月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员