【3万患者11万图像14类病理】NIH公开大规模胸部X光数据集

2017 年 10 月 1 日 新智元 闻菲

1新智元报道

作者：闻菲，刘小芹

【新智元导读】NIH临床中心最新发布了一个含有超过100,000个胸部X光图像及其相应数据的数据集，免费开放，供全世界研究人员使用，这些数据将用于训练计算机学习如何检测和诊断疾病，最终辅助医生做出更好的诊断决策。

胸部X光检查是最常见而且最具成本效益的医学影像检查之一。但是，胸部X光检查的临床诊断很具挑战性，有时被认为比胸部CT成像更难诊断。过去一些有前景的工作已经被报道过，特别是最近在结核病（TB）分类方面的深度学习工作。由于只有几千张图像被用于学习，在现实世界的医疗中，在胸部X光片的所有数据设置上，实现临床相关的计算机辅助检测和诊断（CAD）仍然是非常困难的，甚至是不可能的。

Openi 是迄今最大的公共胸部X射线数据集，由于只有4143张正面视图的胸部X光片，用于胸部疾病识别的深度神经网络的性能受到严重限制。

在这个数据库中，NIH提供了近期工作中使用数据集的一个增强版本（增加了6个疾病类别和更多的图像），规模大约是Openi的正面胸部X光片数量的27倍。所有数据集是从美国国家卫生临床中心的临床PACS数据库中提取出来的，其中包含了医院所有正面胸部X光片的约60%。

参与这项工作的NIH研究员吕乐博士告诉新智元，胸部X光图像去除病人敏感信息工作量非常大, 类比于在Google Street View里找到人脸和汽车牌照并把它模糊化。

据悉，发布这些数据前，NIH的研究人员通过人工和机器将其仔细审查了至少7遍，最后NIH内部还找了十几位博士生和医生，将11万张图像肉眼过了两遍。这都是为了让全世界的研究人员更好的工作，就像吕乐博士说的那样，“希望大家能够喜欢并enjoy!”

NIH研究人员预期这个数据集相比以前的胸部X光片数据集更能够代表真实的患者群体分布和现实中的临床诊断挑战。这个数据集的规模，从图像总数和胸腔疾病频率来看，也将会更好地促进深度神经网络的训练。

详细信息：3万+患者，11万+图像，14类常见病理，以及更多

ChestX-ray数据集包含30,805名患者的112,120张正面视图的X射线图像，以及利用NLP从相关放射学报告挖掘的14类疾病的图像标签（每个图像可以有多个标签）。

数据集含有14类常见的胸部病理，包括肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气，这是王瀟崧博士和Yifan Peng、吕乐博士等人CVPR 2017论文中列出的8中常见疾病的扩充（详见下面ArXiv论文）。

CVPR-17 论文及地址：Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017（http://openaccess.thecvf.com/content_cvpr_2017/papers/Wang_ChestX-ray8_Hospital-Scale_Chest_CVPR_2017_paper.pdf）
ArXiv论文，是CVPR-17论文的扩展，附录中含有14种疾病分布和数据集描述：https://arxiv.org/pdf/1705.02315.pdf
Box图像获取地址: https://nihcc.app.box.com/v/ChestXray-NIHCC

需要注意的是，由于许多原因，原始的放射学报告（与这些胸部X射线研究相关）并不公开分享。文本挖掘疾病标签的准确率预计＞90%。

内容：

112120张正面视图的胸部X片图像，PNG格式，分辨率为1024 * 1024（在images文件夹）
所有图像的元数据（Data_Entry_2016.csv）：图像索引，标签查找，跟踪＃，患者ID，患者年龄，患者性别，以及图像位置。
约1000张图像的边框（BBox_List_2016.csv）：图像索引，标签查找，Bbox [x，y，w，h]。[x y]是每个box的左上角的坐标。[w h]表示每个box的宽和高。

局限：

图像标签是利用NLP提取的，因此会出现一些错误的标签，但NLP标签的准确度估计为>90%。
疾病区域的边界框（bounding boxes）数量非常有限。
胸部X线放射学报告预计不会被公开分享。我们鼓励使用这个公共数据集的研究者和研究机构在以后的研究中共享“更新”的图像标签和/或新的边界盒，可能这些是通过人工注释的。

A：14类疾病的共同发生统计数据：

A. 2 chest X-ray数据集中14种胸部疾病的共生矩阵（co-occurrence matrix）

B. 常见胸部疾病的8个可视化实例（略）

C.一个样本条目（请注意，原始的胸部x射线放射学报告是不公开分享的）

D.使用弱监督深度神经网络的两个疾病定位样本

构建真正大规模医学图像数据集

以下是吕乐博士今年5月GTC演讲《构建真正大规模医学图像数据集：深度标签发现和开放端识别》的部分PPT，从中可以了解到本次NIH公布的大规模胸部X光数据集背后的具体工作。

在诊断中整合机器的决策对人类医生而言很难，好的医生不愿意用，不好的医生不知道怎么用。因此，必须要有更好的人机协作诊断过程。尤其是在精准医疗中，需要新的成像生物标记来更好的协助人类医生做出精准的判断，还需要具体到患者级别的相似度抽取系统，让个性化诊疗成为可能。

与此相关的有三大关键，一是计算机辅助检测和诊断，二是在医疗图像分析中的语义分割，三是在真正大规模数据集上的深度信息挖掘（包括文本和图像）。

在攻克放射医学问题的道路上，可用医学图像数据集稀少成了一个重大问题。而研究人员也一直致力于提供更好的解决方案。

王瀟崧博士、Yifan Peng、、Hoo-chang Shin、吕乐博士等人一直在从事相关的研究。

下面这篇CVPR-17论文就是本次NIH公布的X光图像数据集的基础。

在现有成果的基础上，我们也能看到未来的挑战和研究方向：提升图像标记的精度，提升多标签分类的精度，以及提升定位的精度。

挑战虽多，成果更大，也欢迎你的加入！

全部64页PPT下载：http://on-demand.gputechconf.com/gtc/2017/presentation/S7595-le-lu-building-truly-large-scale-medical-image-datatbase.pdf

【扫一扫或点击阅读原文抢购五折“早鸟票”】

AI WORLD 2017 世界人工智能大会购票二维码：

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【文献综述】Text Detection and Recognition in the Wild: A Review 自然文本检测与识别

专知会员服务

46+阅读 · 2020年6月11日

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

专知会员服务

56+阅读 · 2020年3月23日