「中文电子病历命名实体识别」的研究与进展

2022 年 11 月 6 日 专知

海量电子病历（Electronic Medical Record，EMR）数据是支撑医疗智能化研究的重要原料，其结构化的不完全性给有用信息抽取带来了较大困难. 自命名实体识别（Named Entity Recognition，NER）成为对电子病历进行自动化信息抽取的核心技术后，近年来受到越来越多的关注 . 鉴于中文电子病历（Chinese Electronic Medical Record， CEMR）独特的文本特征给该研究带来了诸多挑战，本文综述了中文电子病历命名实体识别的概念、相关理论模型以及制约中文电子病历命名实体识别准确率和识别效率的主要原因，详细分析了中文电子病历命名实体识别近年来的主要研究进展. 通过对主流模型的实验验证与深入分析，指出了现有模型的不足与改进方向。

https://www.ejournal.org.cn/CN/10.12263/DZXB.20220485

1. 引言

电子病历（Electronic Medical Record，EMR）是指医务人员在医疗活动过程中，使用信息系统生成的文字、符号、图表、图形、数字、影像等数字化信息，并能实现存储、管理、传输和重现的医疗记录，是病历的一种记录形式，包括门（急）诊病历和住院病历［1］，是临床辅助决策［2］、专病科研数据提取［3］、医疗知识图谱构建［4］和智能预问诊［5］等应用的重要数据支撑. 然而，电子病历通常由自然语言书写而成，大多为医疗信息系统无法直接利用的半结构化甚至无结构化数据［6］，如何利用自然语言处理技术对电子病历文本进行智能分析和信息抽取，将其组织为结构化的内容，是当前研究的重点［4］ .

如图1所示，命名实体识别是电子病历分析利用过程中介于数据预处理与数据应用之间的关键技术 . 基于对电子病历结构化和标准化的目的，针对电子病历的命名实体识别（Named Entity Recognition，NER）是从海量电子病历数据中识别出有独立或特定意义的医疗信息实体［7］，如目前公认的疾病和诊断、检查、检验、手术、药物与解剖部位在内的六类实体［8］，对其进行序列标注和标准化，为进一步进行信息抽取和文本挖掘做准备，该技术具有重要的应用前景 . 截至目前，电子病历的命名实体识别方法主要经历了基于词典、规则和机器学习的三个发展阶段 . 相较基于词典的方法兼容性较差和基于规则的方法可迁移性较差，基于机器学习的方法在电子病历命名实体识别上表现出较好的实用性和可移植性. 特别在深度学习技术提出后，面向电子病历命名实体识别的深度学习模型井喷式增长，各个模型不断优化命名实体识别的准确性.

国际上，早在1996年由NCCOSC（前NOSC）海军研究与发展小组（NRaD）的 Beth Sundheim 组织的 MUC-6 会议［10］提出命名实体识别概念就开始推动相关方面研究，2002 年自然语言处理领域影响力最大的国际学术组织 ACL 下属的 SIGNLL 主办的计算自然语言学会议（Conference on Natural Language Learning，CoNLL）①将跨国语言的命名实体识别作为共享任务，2010 年美国国立卫生研究院（NIH）赞助的国家生物医学计算项目 Informatics for Integrating Biology and the Bedside（I2B2）测评任务给出电子病历命名实体识别的具体要求，聚焦推进英文电子病历命名实体识别方面的研究. 除应用人工规则和建立词典的识别方法之外，早期主要的识别方法的训练模型几乎都基于监督学习，包括采用贝叶斯模型、支持向量机［11］、条件随机场［12］等. 后续的研究中发现，半监督学习方法有别于有监督学习，只需要少量语料标注，因此也成为一段时间的研究热点，包括采用半监督协同训练［13］和多任务学习的半监督学习方法［14］等.

随着深度学习技术的发展，鉴于其在命名实体识别上表现优异，迅速成为了研究热点 . 从最初以 LSTM［15］为代表的单向RNN网络到以BiLSTM［16］为代表的双向RNN网络，从基本的CNN网络［17］到其变种迭代膨胀卷积 IDCNN［18］，从类似 CRF 的单一模型到诸如 BiLSTM+CRF［19］的多模型融合……人工参与工作量不断减少，识别精度也不断提高. 特别在将预训练模型和迁移学习方法引入后，模型对语义的理解更进一步，具体是通过自监督学习从大规模语料中获得与后续任务无关的预训练模型，并迁移到实体识别这样的下游语言任务上 . 比如从 Word2vec［20］到 GLOVE［21］，再到 BiLSTM，BERT［22］，以 RoBERTa［23］为代表的 BERTology 系列……这些预训练模型依次出现，在优化升级过程中不断提高了命名实体识别的精度.

而国内由于医疗信息化建设起步较晚，电子病历命名实体识别研究相对于英文语料环境落后 . 最早杨锦锋等人［7］在2014年对国内外电子病历命名实体识别工作做了详尽总结，在 2016 年制定了命名实体的详细标注规范［24］，此后国内在该领域的研究逐步展开：比如从2017年至今每年举办的全国知识图谱与语义计算大会［25~29］均将中文电子病历命名实体识别作为测评任务，迅速推动了该领域的研究进步. 其中，面向中文电子病历（Chinese Electronic Medi⁃ cal Record，CEMR）命名实体识别的主要技术路线和国外大致相同，主要在待识别文本的语言特征上两者有所差异，如英文词语边界明显、词语前后缀较易划分、词法句法结构相对固定，而中文语句没有明显的分词、偏旁部首等部分不能直接划分、词法句法结构复杂. 特别针对医疗领域，中文医学专业词汇多、医学命名实体长、一词多义、多词一义以及词汇缩写无统一规范等问题尚未获得有效解决，大多数研究者基于国外提出的模型技术，融合中文医疗文本特征，在不断摸索提高中文电子病历命名实体识别准确性的有效方法，具体研究在 CCKS 历年收录的文章（详见第 4 节）中进行了说明.

虽然面向中文电子病历的命名实体识别目标明确，相关技术也取得了长足发展，但有别于英文或者中文通用领域的命名实体识别，中文电子病历独特的文本数据特征也给该研究带来了诸多挑战，具体包括以下几点。

（1）中文电子病历文本的非规范性和专业性. 该特征带来了三方面挑战：一是中文电子病历文本中存在大量非规范的语法、拼写错误和不完整的句子结构，如将“右心室”错误地写为“有心室”；二是中文电子病历文本包含大量专业术语、受控词汇、缩略语、符号等，如药物“Aspirin”被译作“阿司匹林”或者“阿斯匹林”其中哪一种并不确定；三是中文电子病历自身特殊的文法和句法. 这些挑战均给命名实体识别造成困难.

（2）中文医疗实体的独特性. 中文电子病历文本数据中不仅有常规的实体，还有很多拥有复杂结构的实体，主要有两种情况：一是嵌套类实体存在自身复杂的结构，如“呼吸中枢受累”中存在二级实体嵌套：“呼吸中枢受累”为症状而“呼吸中枢”为身体部位；二是跳跃类实体在文本中的位置不连续，如“尿道、膀胱、肾绞痛”中存在三个非连续实体“尿道痛”、“膀胱痛”和“肾绞痛”.

（3）中文电子病历标注语料的稀缺性. 造成这一现象的原因主要是考虑到患者隐私和保密性要求，电子病历数据难以公开；此外可用于电子病历命名实体识别的数据集标注成本高，需要医疗专家的指导和参与，费时费力. 鉴于此，本文针对国内外在中文电子病历医疗命名实体识别上的工作进行了详细分析；综述了近年来中文电子病历命名实体识别模型上的研究进展；同时也对当前电子病历命名实体识别的效果进行了对比检验，进而深入分析了各模型的优势与不足；在此基础上对该领域的后续研究方向进行了展望.

2. 中文电子病历命名实体识别

中文电子病历命名实体识别是针对给定的一组电子病历纯文本文档，通过自然语言处理技术，识别并抽取出与医学临床相关的实体提及，并将它们归类到预定义类别［8］ . 如全国知识图谱与语义计算大会（CCKS）于 2021 年发布的中文电子病历命名实体识别评测任务［8］中定义了 6 类实体，包括疾病和诊断、检查、检验、手术、药物和解剖部位. 其一般流程包括先将原始电子病历语料进行数据抽取、清洗、规约与脱敏四步预处理，获得待标记的电子病历字符序列. 之后将其输入命名实体识别模型中进行计算，获得标注好的电子病历字符序列作为最终结果. 具体到命名实体识别模型，通常由特征工程、识别方法所对应的模型识别和模型融合三部分构成，如图2所示.

3 中文电子病历命名实体识别模型

电子病历命名实体识别模型的研究，主要有基于词典、规则和机器学习三种方法，各方法的优缺点如表 2所示.

近年来，随着机器学习技术的发展，基于深度学习的命名实体识别也获得较大关注，并取得了很好的识别效果 . 相较统计机器学习需要依赖研究者手动设计特征工程，即用一系列工程化的方式从原始语料中筛选出更好的文本数据特征，以提升模型的训练效果. 深度学习是端到端的，可以自动找到更深入、更抽象的特征 . 深度学习的关键在于如何在词向量的基础上设计并利用各种神经网络模型进行医疗命名实体识别 . 普遍采用的模型如图5所示。

4. 中文电子病历命名实体识别效果

为实际考察目前中文电子病历命名实体识别前沿方法及其效果，为下一步研究提供方向 . 本节首先对 CCKS 近年来该领域相关论文中提及的方法进行纵横比较，分析不同方法的特点和创新之处；再通过对这些方法中主流模型的深入实验分析，为后续研究提供切实可行、有借鉴意义的思路.

5 结论

海量电子病历数据是支撑医疗智能化研究的重要原料，然而电子病历文本数据的半结构化甚至无结构化特点，造成后续对其分析利用的极大困难. 虽然近年来基于深度学习的命名实体识别技术已经发展到可以有效完成电子病历的命名实体识别任务，但由于中文电子病历所具有包括病历文本的非规范性和专业性、医疗实体的独特性和标注语料的稀缺性在内的独特文本数据特征，该研究目前仍存在诸多挑战. 本文对中文电子病历命名实体识别的研究与进展进行了综述，系统梳理了中文电子病历命名实体识别的相关理论；从技术发展角度详细叙述了中文电子病历命名实体识别方法的变革历程；并对中文电子病历命名实体识别效果做了实验验证与深入分析，指出了现有模型的不足与改进方向；鉴于国内近年来与中文信息学处理相关的测评会议 CCKS 持续关注中文电子病历命名实体识别，本文特别对CCKS在该领域五年来的全部代表性测评论文做了纵横对比分析，并通过在主流模型 BBC 上的深入实验与研究，为后续该领域的继续推进寻求了思路. 虽然围绕电子病历文本数据处理的医疗命名实体识别并非新兴研究方向，与其他通用领域文本数据上的命名实体识别技术差别不大，但中文电子病历自身所具备的专业性和隐私性等特点，让该领域到目前为止仍存在极大的研究空间，主要体现在训练语料获取难度大、现有识别方法仍存在可改进之处等. 基于本文调研，我们认为以下几个方面是未来中文电子病历命名实体识别研究中值得重点关注的方向：

（1）针对特殊实体类型研究识别率的提升方法。前文实验结果表明，“实验室检验”类实体的 F1明显较低. 潜在原因有二：一是该类实体多有中英文混杂的情况，从而导致模型不能很好地判断实体边界；二是难以识别出长度为一的短实体以及不能完整识别出较长实体，该类实体还明显存在实体嵌套的现象，导致严格匹配指标F1值较低. 针对不同类型实体，特别是针对中文电子病历中特殊类型的实体，包括嵌套类实体和非连续类实体，鉴于其自身结构和语义的复杂性至今仍是制约中文电子病历实体识别效果的要因，有必要对以往模型的实验结果做进一步分析，统计特殊类实体的识别情况，并对特定实体类型所存在的问题进行具体优化.

（2）寻求性能表现更佳的模型结构：综合调研结果，我们发现基于词典和规则的实体识别方法均因自身缺陷而不再被独立研究，多结合到基于机器学习的实体识别方法中，作为提升模型性能的两种手段；而基于机器学习的实体识别方法目前仅BBC模型被广为采纳 . 可以预见，在更优的模型架构提出以前，一定阶段内BBC模型将不被淘汰. 因此，下一步一方面可以考虑采用 4. 2. 6 小节提出的 12 种方法改良 BBC 模型，另一方面也可以考虑借鉴图像识别等其他领域思路，在中文电子病历命名实体识别情景下寻找性能更佳的模型结构.

（3）采用多元的模型学习方式：深度学习模型大多为数据驱动，足够且高质量的数据才能让模型学到一定的知识，从而达到相较理想的模型效果. 而短时间内中文电子病历的命名实体识别仍无法获得足量的数据，这也是大部分研究者在模型识别效果提升上受到制约的潜在原因 . 未来可以在模型上尝试采用不同的学习方式解决这一问题，如主动学习［107］、自学习［108］、迁移学习［109］、多任务学习［79］、元学习［110］和小样本学习等.

（4）进一步提升模型训练和测试效率：经实际测验，在一定参数设置下一个主流的中文电子病历命名实体识别模型 BBC在 CPU 上训练时长超过 24小时，在 GPU上训练时间也长达3小时. 此外，并非可并行计算模型结构中的各个部分都能采用 GPU 加速计算，如 BERT-LSTM-CRF 模型中，由于单个 LSTM 模型自身结构无法并行，这一部分就无法使用 GPU 进行加速 . 因此，在算力资源不紧张的情况下，采用分布式学习如联邦学习［111］等思路；在算力资源有限的情况下，寻求合适的模型训练方案以提升效率，在实际应用场景下都十分必要.

（5）完善中文医疗领域语料库资源，构建开放高质量数据集：虽然目前部分研究者如本节第（3）点所述：从小样本学习、领域迁移学习或者对医疗数据进行无监督学习等方向进行了初步尝试并取得一定进展，如高冰涛等人［41］通过构建基于迁移学习的隐马尔可夫模型 BioTrHMM 仅需要少量的目标领域标注数据即可在医学命名实体上获得较好性能. 但在大数据浪潮下，建立统一的标注标准和公共数据集；降低数据集标注的人工成本和时间成本；利用自动化方式获得较为完善而高质量的中文医疗领域语料库仍然是较为紧迫的研究问题，需要政府、医院和相关研究者共同出力.

（6）与其他研究方向做联合研究：自 CCKS2019 以来，中文电子病历命名实体识别任务就开始和其他任务做联合测评 . 鉴于中文电子病历命名实体识别最终为电子病历文本数据结构化和标准化、医疗知识图谱的构建等服务，联合研究既降低了研究成本、减少了分开研究潜在的信息丢失和误差传递现象，同时还能通过研究方向之间的关联性，为彼此提供更丰富的扩展信息，进一步提升方法的整体性能，目前也吸引了较多研究者关注.

专知便捷查看