医工结合之路:草木蔓发,春山可望 | 专访清华统计中心俞声

2018 年 6 月 11 日 数据派THU


清华大学统计学研究中心助理教授俞声


清华大学统计学研究中心助理教授俞声,主要的研究方向是基于电子病历的数据分析,他与数据科学研究院的合作始于数据院和清华大学临床医学院合作搭建清华临床医学科研数据平台(以下简称:医学数据平台)。“我们自己去跟医院谈合作,不一定能引起人家的兴趣,医学数据平台的搭建促使我们能够更好的使用医疗数据做研究。”和长庚医院深度合作,俞声认为医学数据平台功不可没。


俞声有着丰富的国外医疗数据统计分析经验,即使是回国后,在与数据院合作之前,他的研究对象依然以美国电子病例为主。相较于国外成熟的医疗数据体系,国内医疗数据的收集、开放、处理都面临着诸多困难。“早期我主要研究美国的电子病历,诸如退伍军人系统这类最优质的数据我们都能拿到,数据根据一套严格的管理规范允许我们使用。但是国内相关的环境和规定还不完善,医院大都不敢提供数据,”他为我们分析道。“另外,中文病历的分析难度也比英文更大。美国有非常完备的术语库,类似字典,包括标准术语和各种常见变体、缩写,可以用来辅助识别病历中的各种医学概念,将文字转化为变量。中文没有类似完整的术语库,所以一方面我们需要开发额外的术语自动识别技术,另一方面也希望国家加大医学信息基础设施建设的投入。”


除了医疗数据的使用和规范之外,国外的医疗数据研究团队也有相对成熟的模式。俞声跟我们介绍,美国研究医学问题的团队历来都会配备生物统计学家,医学背景的人提出研究问题,生物统计学家会帮助设计实验、建立模型、排除干扰变量,并对结果的解读提供统计学指导。“但是在国内,医生很少和统计学家合作科研。”俞声说,“所以数据院和临床医学院搭建的医学数据平台是非常有意义的。联合医学专家和数据科学领域专家,大家术业有专攻。像我个人是有统计和计算机交叉的知识背景,与医学专家合作,我们可以发现许多新问题,从新的角度去解决问题,例如自然语言处理、深度学习这些技术都可以帮助有效处理医疗数据。”


通过医学数据平台,俞声团队在肝癌、脑卒中自由文本数据的信息提取、病历文本挖掘等方面都与医院展开了合作。医院提出和临床直接相关的医学问题并提供数据支持,俞声团队则提供技术支持并进行统计分析,得出和临床相关的结论。“为了数据安全,原始病历数据不能离开医院,所以实际上我们要处理什么数据,都要往医院跑,路上会比较辛苦。”提及与医院合作的过程,俞声有不少感慨:“数据院正在建立的医学数据平台,可以实现数据脱敏,并允许清华IP远程读取存储在医院服务器上的数据,远程处理之后传回结果。相当于数据还是留在医院,但是我们远程就可以实现处理和分析,就不用每次都奔波往返于医院和学校之间了。”


平台还在不断搭建和完善,国内医疗与大数据结合的工作还有许多困难需要克服。俞声相信,数据院和长庚医院的合作模式将会给全国带一个好头。在数据院的推动下,“医工结合”这条路已然草木蔓发,春山终可望!

登录查看更多
1

相关内容

2014 年 5 月 16 日,清华大学校务会议批准成立清华大学统计学研究中心。中心的发展目标是:“建立高水平师资队伍,开展高水平学术研究,增强与相关院系单位的交流与合作,尽早在清华建成国际一流的统计学科“。中心为独立的校级学术机构,行政事务挂靠工业工程系。中心依托清华大学在工科、商科、生命科学等方面的有利条件,深入开展统计基础理论、统计计算、生物及医学统计、工业统计和商业统计等领域的科研和教学工作。力争在理论和应用统计方面取得具有国际影响力的重要学术成果。
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
234+阅读 · 2020年4月29日
专知会员服务
124+阅读 · 2020年3月26日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
81+阅读 · 2020年3月4日
电力人工智能发展报告,33页ppt
专知会员服务
128+阅读 · 2019年12月25日
【课程】概率图模型,卡内基梅隆大学邢波
专知会员服务
69+阅读 · 2019年11月4日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【全职&实习- 上海】量化岗位招聘公告
量化投资与机器学习
4+阅读 · 2018年7月3日
苦尽甘来:AI为更有效地治疗抑郁症带来希望
英伟达NVIDIA中国
10+阅读 · 2018年3月1日
易观联合清华海峡研究院成立人工智能实验室
Analysys易观
4+阅读 · 2017年10月28日
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
10+阅读 · 2019年2月19日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年5月10日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
11+阅读 · 2018年3月23日
VIP会员
相关论文
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
10+阅读 · 2019年2月19日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年5月10日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
11+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员