服务学术共同体创新全链路，清华大学温江涛团队推出新一代科技创新评价和支撑平台「Phocus」

2022 年 4 月 8 日 机器之心

机器之心原创

作者：蛋酱

在计算机领域，有一个广为人知的故事：1973 年，在施乐公司帕克研究中心（The Xerox PARC)，第一台个人电脑 Alto 诞生了，这台电脑首次使用了桌面比拟（Desktop metaphor) 和鼠标驱动的图形用户界面（GUI）技术。接下来的几十年，Alto 极大地影响了个人电脑的设计，包括苹果的 Macintosh。

后来，乔布斯在 1995 年的一次采访中提到，Alto 的很多想法并不是完全正确的，但它最关键的一点是提供了关于图形用户界面的最初灵感：「Alto 有世界上第一个图形用户界面，有窗口，有一个粗糙的菜单系统，尽管工作起来并不算流畅，但奠定了图形用户界面的基础。」

显然，对技术成果的评价应该是多维度的，而一个不够完善的 idea 未必是不具备开创性的。

在学术领域，这个问题同样存在：对于一篇新论文、一个新想法、一位研究者，我们如何全面、客观地做出评价？

在一个行业里，如何辨别哪些是具备创新价值的课题？哪些是跟风研究？某一个课题的研究意义究竟在什么地方？如何去发现一些重要的议题？

为了解决这些问题，清华大学温江涛教授科研团队借助人工智能、云计算、视觉交互等前沿技术打造了新一代科技创新评价和支撑平台「Phocus」，旨在搭建一个真正国际化、公平、开放的顶尖科研创新平台。

我们为什么需要 Phocus？

在当前的评价体系中，仅仅基于引用行为的影响力评价指数存在着不可忽视的问题。首先，未纳入出版生态的大量成果很难得到公正的评价，且当前的学术平台并未考虑出版平台和语言的影响，这使得中文的成果被严重地低估了。此外，大量非论文引用和评价也未纳入模型，以 BERT 为例，这项成果所涉及的网络资源包括但不限于 YouTube、博客、知乎、Github 等。

2021 年 11 月，PNAS 刊登了一篇新文章《Slowed canonical progress in large fields of science》。这篇文章对 241 门细分学科 9000 万篇论文的 18 亿次引用进行了定量分析，得出了重要结论：论文发表数量的激增并没有加快研究范式的更替，而是巩固了经典研究。同时，一些可能蕴含潜在颠覆性观点的新论文却面临出版难、阅读量低、引用量少的困境，也不会随着时间的增加而吸引更多人的关注。

可以看到，基于引用行为而不是引用内容和方式的模型并不能准确评价成果的价值，且论文级的模型粒度无法准确跟踪研究成果。长此以往，甚至还会导致经典固化的现象，影响新一批 idea 的涌现。

温教授介绍说，成果传播方向的诸多现存问题，也极大地影响了科研生命周期的良性循环：

传统的论文发表常常依托于期刊和学术会议，其优势在于资源相对集中，也有利于培养面对面的学术交流气氛，但期刊和学术会议以年为单位的周期无法满足成果传播的需求，也并不能承载一些热门方向以小时计的成果更新。极长周期的成果发表周期也会一定程度上让科研成果的时效性大打折扣。

在这其中，一项研究成果的命运往往掌握在少数审稿人手中。以计算机领域为例，近年来，各大顶会和期刊的投稿数量呈现爆炸式增长趋势，但审稿人的数量总是有限的：很多垂直领域尤其是一些新兴的方向和想法，很难找到非常合适的审稿人。这就导致了审稿过程充满了随机性，例如每次审稿结果公布后，很多人都会吐槽审稿人「没仔细看」。除此之外，审稿机制本身也难以充分解决利益冲突。更不用说，科研工作者的一些原始创新、交叉学科方向的工作、尚未成型的闪光亮点很难得到审稿人的青睐。

当前，中国的科研能力、科研影响力和科研需求在不断地扩大，在以往的机制中，成果的评估、发布都依托于国外的传统平台，面向中国特色需求的科研方向并不能得到充分的支持。一些面向国内关键问题的研究，很难在国外的主流杂志上发表；一些冷门学科、冷门方向的研究很难得到重视，这导致中文成果的影响是被低估的，曾获得诺奖的青蒿素就是一个经典案例。

「这种仅仅按引用次数评价的行为，而不是对它引用去做更深层的评价的话，很难去正确的认识到一个工作的重要意义。」温江涛教授表示。

以谷歌学术（Google Scholar）、Sci-Hub、arXiv 为例，这些平台在论文数据的汇总工作上做得很好，起到了非常重要的门户作用。但这些主流的学术平台大多停留在提供论文检索服务的水平，对著作、学者的评价依旧沿袭基于引用次数的标准：评价论文，以被引量、发表期刊 / 会议为指标；评价学者则以被引量、H - 指数，G - 指数，i10 指数等为衡量标准。

这类标准无视了最基本、最重要的差距。同一篇论文内的参考文献对该论文的贡献度是不一样的，Small 在 Citation context analysis 一文中指出，参考文献可分为五类：驳斥、提及、总结、应用以及拓展。因此，平等地将所有参考文献都视为一次引用是不合理的。

在一些新兴的评价论文影响力评价指标中，这一问题得到了改进，比如 Altmetric 会从多种渠道获取一项成果的受关注程度，包括社交媒体如推特、微博，网络社区 stack overflow 等，同行评议，新闻，政治刊物等。Plum X 从使用、捕获、提及、社交媒体、引用等五个维度对成果的动态进行抓取。这些指标扩大了学术评价体系范围，但是本质也仍唯数量论，并未考虑对内容本身的分析。

Semantic Scholar 则率先迈出了打破唯被引量论的第一步。该平台通过规则匹配提取特征，并训练一个分类器，将参考文献按照对论文的贡献程度分为四类：有重要影响、背景、方法和结果。这种划分对参考文献做了简单的区分，但不能实现一个统一评价标准，难以拓展到更大的范围。同时，该划分采用的特征忽视了引文作者对被引文献最直接的评价，准确率仍待提升。

Phocus 是什么？

新一代科技创新评价和支撑平台 Phocus 旨在建立一个服务于学术共同体创新全链路的学术平台，关注科研人才的原始创新，关注并满足科研人才以及各研究机构的各层级需求，挖掘并积极传播多方向、多交叉的学术成果，维护学术共同体中的每一位科研人才的权利。同时，一个健康的学术共同体强依赖一个立体的合理的评价体系，团队将基于已有的科研数据与各平台沉淀的学术讨论形成一套合理的针对人才与热点的科学评价体系，来帮助合理分配资源，从而达到科研成果推动国家进步的利益最大化。

平台整体架构图

为达成上述目标，团队为算法与平台这「两条腿」分别制定了多个研究课题与开发建设周期。

在算法层，为了构建更好的人才评价体系与鼓励细粒度的论文成果交流推广，团队提出了 Phocus 科研贡献因子——CSI index。在此基础上提出了三个研究课题，分别是课题一：多模态、多媒体的引用情感分析，课题二：知识图谱和学术传承模型，课题三：结合实名制和区块链技术的用户管理和数据溯源。
在应用层，Phocus 遵循三步走的策略，第一步，MVP 版本展示新影响因子算法效果，加持学术内容 AI 搜索召回准确度，展现各个原子能力。第二步，加强与各大现有平台能力对接，布置接入在线会议、期刊，加强 To G、To B 合作，开发上线新功能，沉淀学术内容、资源，建设专攻学术的能力平台。第三步，走入 C 端市场，打造学术文化社区，服务科研工作者的全链路需求。

Phocus 科研贡献因子——CSI index

为此，团队对几万篇论文进行了深入分析，设计了评估作者和论文的新型学术评估机制——Phocus 科研贡献因子，通过考虑引用内容和方式更准确地评价成果的价值。

在评价一篇论文时，Phocus 会分析论文中含有引用的句子及其上下文，预测论文对引用文献的情感极性。此外，Phocus 结合论文引用的总数量、每句引用的数量、作者重叠和参考文献的数量等因素，将引文粗略划分为 4 类，对论文中的所有参考文献进行排序，结合分类结果和排序得到针对一篇论文的某个参考文献的局部影响因子。引用文献的全局影响因子是引用文献的局部影响因子和总影响因子的乘积。

打破唯被引量论的关键在于考虑作者对被引文献情感倾向去评估被引文的贡献。在一篇论文中，各个参考文献的贡献是不同的。如下图所示，作者提到引文 1-17 之间成果重要性是有差别的， 14-17 号引文的重要性大于 1-13 号引文。

Figure 1 参考文献贡献度分析

其次，对同一篇引文的情感也并非单调的。例如在下图中，作者对 91-98 号论文的情感属于「先扬后抑」，对参考文献的成果部分表示肯定，部分表示否定。

Figure 2 参考文献情感分析

另外，一篇论文的贡献不仅可以体现在论文引用上，YouTube、Github 等网络平台上也会有文字、代码、音视频等不同形式的论文引用和评价。

具体而言，在引用情感分析方面，团队从「基于情感的引用文字分析」和「基于多模态信息融合的活跃度与贡献度评估」两方面进行了研究。

基于情感的引用文字分析

分析作者对一篇引文的情感，可以考虑引文的上下文环境。在下图中，黑色句子为引文所在句子，绿色句子为引文前文，黄色为引文后文。前文与后文对判断引用的情感起到了重要作用，对引文的评价具体落在 cycle-consistency loss, the distance preserving loss 等具体部分。

Figure 3 基于情感的引用文献分析

对引文评价方法的实现框架如下图所示，可以看出，该框架会关注引文内容，而不仅是引用行为；会结合引文上下文逻辑关系，而不是孤立地分析引文；此外引入了情感分析；同时拆分了被引工作，将评价细化到被引工作的各个部分。

Figure 4 基于引文的评价方法框架

基于多模态信息融合的活跃度与贡献度评估

针对在论文引用之外的贡献，团队综合 AMiner、Google Scholar、Semantic Scholar、YouTube 等平台的功能，设计了细粒度多模态、多媒体分析的评估体系。如下图所示，对于包括幻灯片、网页、代码仓库等文字形式的资料，通过文本解析和提取元数据的方式获得它们的文本特征。

结合文本特征、音频特征、视频特征进行多模态信息融合，并结合 Phocus 学术因子，可以计算出一篇论文或一项成果对于作者的贡献度。对一位研究者的每一个成果的贡献度都会影响对其的整体评价。

Figure 5 基于多模态信息融合的活跃度与贡献度评估

在 Phocus 平台中，一个作者的学术影响因子是他所合著的每一篇论文的贡献之和。Phocus 学术影响因子介于 0-1 之间，数值越大，影响力越高。

以计算机学科某位学者 Y 和同领域 2019 年图灵奖得主 Pat Hanrahan 为例。Google Scholar 等评价体系根据简单引用次数，得出学者 Y 的科研贡献比图灵奖得主 Pat Hanrahan 高一倍。但是 Phocus 根据全网数据分析引用行为、结合多模态情感分析、科研生态模型，得出学者 Y 的科研贡献因子为 0.4，Pat Hanrahan 的科研贡献因子为 0.52，比 Y 的贡献高 30%。

Phocus 平台未来建设路径

根据目前计划，Phocus 平台正式版本将于 2022 年底发布。未来，Phocus 平台将广泛服务 G 端、B 端和 C 端用户，平台中的诸多能力均可二次打包成定制化服务给到各类用户。

从平台应用层出发，平台主要分为三个大的应用方向，包括：

Figure 6 学术平台核心功能

AI 搜索召回。依托新的 CSI-index ，团队优化了搜索召回准确度，基于评价系统，生成包含更科学结果的召回卡片、论文溯洄功能、相关研究脑图等等功能集成在 AI 搜索召回功能里。
加权影响因子、影响趋势预测。这部分会依托于核心的 CSI-index 打包出多个功能模块，包括依据新的影响力评价系统，生成各领域各学科的影响力指数，热门趋势预测报告，生成能广泛引发讨论的问题、多媒体推文等等。
小粒度成果分享社区。为了缩短科研成果发布周期，团队将聚焦搭建一个小粒度成果分享社区，让用户可以在平台上发布想法、demo、短论文、视频等等多种形式的成果内容，沉淀在平台进入影响力评价系统与媒资的循环中。

为了充分利用平台沉淀的内容，Phocus 还设计了平台内媒资双闭环的链路。一条链路专注于媒资入库、生产、理解加工、管理、分发与控制。另一条关注媒资在各阶段对影响因子系统的反向传播与更新。