注:模型在训练 NER OntoNotes 时将其标签集转换为与 MSRA 一致。 最终模型在各项任务中取得的 F 值如下: 表格中单位为百分数。CWS 的成绩是 10 项任务的平均成绩。Parsing 中的两个成绩分别代表 F_{ldep} 和 F_{udep}。SOTA 模型的数据来自笔者对网上资料及论文的查阅,如有缺漏请指正,不胜感激。这五项 SOTA 表现分别来自如下五篇论文: [1] Huang W, Cheng X, Chen K, et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning.[J]. arXiv: Computation and Language, 2019. [2] Hang Yan, Xipeng Qiu, and Xuanjing Huang. "A Graph-based Model for Joint Chinese Word Segmentation and Dependency Parsing." Transactions of the Association for Computational Linguistics 8 (2020): 78-92. [3] Meng Y, Wu W, Wang F, et al. Glyce: Glyph-vectors for Chinese Character Representations[J]. arXiv: Computation and Language, 2019. [4] Diao S, Bai J, Song Y, et al. ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations[J]. arXiv: Computation and Language, 2019. [5] Jie Z, Lu W. Dependency-Guided LSTM-CRF for Named Entity Recognition[C]. international joint conference on natural language processing, 2019: 3860-3870. 更多关于模型结构、模型训练的信息,未来将在项目网站中进行更新。 知乎链接:https://zhuanlan.zhihu.com/p/147665538?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856 世界人工智能大会线上活动(WAIC)是由上海市政府打造的国际顶级人工智能会议。为进一步促进人工智能技术与产业相融合,推动开发者技术生态建设,WAIC 2020年黑客马拉松将于7月9日-11日期间举办。 机器之心联合优必选科技与软银机器人公布两大赛题,邀请全球开发者来战。更多精彩赛题将于近期公布,欢迎关注。