The online health community (OHC) is the primary channel for laypeople to share health information. To analyze the health consumer-generated content (HCGC) from the OHCs, identifying the colloquial medical expressions used by laypeople is a critical challenge. The open-access and collaborative consumer health vocabulary (OAC CHV) is the controlled vocabulary for addressing such a challenge. Nevertheless, OAC CHV is only available in English, limiting the applicability to other languages. This research aims to propose a cross-lingual automatic term recognition framework for extending the English OAC CHV into a cross-lingual one. Our framework requires an English HCGC corpus and a non-English (i.e., Chinese in this study) HCGC corpus as inputs. Two monolingual word vector spaces are determined using skip-gram algorithm so that each space encodes common word associations from laypeople within a language. Based on isometry assumption, the framework align two monolingual spaces into a bilingual word vector space, where we employ cosine similarity as a metric for identifying semantically similar words across languages. In the experiments, our framework demonstrates that it can effectively retrieve similar medical terms, including colloquial expressions, across languages and further facilitate compilation of cross-lingual CHV.
翻译:在线健康社区(OHC)是让普通人分享健康信息的主要渠道。分析OHC的卫生消费者产生的内容(HGC),确定非普通人使用的科式医疗表达方式是一项关键的挑战。开放获取和协作的消费者健康词汇(OAC CHV)是应对这一挑战的受控制的词汇。然而,OAC CHV只有英文版,限制了对其他语言的适用性。这一研究的目的是提出一个跨语言自动自动自动自动识别框架,将英语 OAC CHV 扩展成跨语言的。我们的框架需要英语的HCGC 文和非英语(即这项研究中的中文),以确认非英语(即中文)的医学表达方式,这是一项关键挑战。两个单语单语的矢量空间是使用跳过法算法确定,以便每个空间将普通人的共同词汇协会编码成一种语言中的普通词汇。基于测量假设,框架将两个单语言空间调整为双语的单语言矢量矢量空间,在这里我们使用 Cosine相似性作为辨辨辨跨语言间类似词的衡量标准。在实验中,我们的框架表明它可以有效地检索类似的医学术语,包括Cli 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、