2020 年年初, 新型冠状病毒感染的肺炎 (COVID-19) 爆发, 中国采取了全面严格的防控举措 全力抗击疫情. 地方疫情指挥部门及时通报疫情感染数据, 有助公众了解疫情的发展, 及时做好防护 措施. 各地患者病例详情数据主要以文本形式记录, 信息描述复杂, 且各省市汇报的格式各异, 处理难 度较大. 我们面向全国湖北省外近二分之一匿名的患者病例详情数据, 提出了应用自然语言处理技术, 辅助病例数据结构化的方法. 该方法可以在标记样本较少的情况下, 借助预训练模型, 准确有效地提 取出病例文本中的关键信息. 通过对较大规模患者结构化病例数据的挖掘, 本文详细分析了新型冠状 肺炎总体发病性别和年龄分布特点、主要感染原因、潜伏期特点及疫情趋势等特征. 由于潜伏期等时 间延迟的存在, 确诊人数往往不能反映一个地区的真实感染情况, 结合出行大数据, 本文提出了一个 合理推断武汉市等城市实际感染人数的方法. 该方法有助于人们提前估计地区疫情发展情况, 及早采 取防护措施. 也可以辅助地方相关部门科学决策, 尽早调度医务人员和分配医疗资源。