力荐联邦学习系统，据说英伟达Clara“上架”新进展！

会员服务 ·

力荐联邦学习系统，据说英伟达Clara“上架”新进展！

2019 年 10 月 24 日 CSDN云计算

戳蓝字“CSDN云计算”关注我们哦！

作者 | 晶少

责编 | 阿秃

这是晶少本年度第二次面访Kimberly Powell，这位英伟达医疗领域的美女副总裁。

除了一贯的nice之外，更重要的一点，在深圳MICCAI 2019期间，英伟达医疗团队还带来了首个面向医学影像的隐私保护型联邦学习系统的发布以及关于Clara的最新进展。

有明确消息指出，英伟达（Nvidia）和伦敦国王学院（King’s College London）的人工智能研究人员已经做到利用联合学习训练了一种用于脑肿瘤分类的神经网络，这项技术可以在医院和研究人员之间共享数据的同时，做到保护患者隐私。

据悉该模型使用了来自285例脑肿瘤患者挑战的BraTS（Multimodal Brain Tumor Segmentation）数据集。有定义表示，联合学习又被称为联邦学习，是一种机器学习方法。当使用客户端-服务器方法时，可以做到不再需要创建单个数据湖来训练模型；模型可以在本地就可得到训练，随后将得到的洞察从多台机器传输到一个中心模型中加以汇总利用。

技术发展至今，我们似乎对”机器学习在医疗健康领域潜在影响巨大”达成了共识，深度学习不愧是一种从医学数据中自动提取知识的强大技术，一些计算机视觉系统也早已证明“完胜”人类放射科专家的诸多经验与能力，但由于医疗领域大量数据隐私的要求，更多病例的不同数据集并不总是可用的状态。

通俗来说，英伟达上新的这款联邦学习系统能够帮助开发者与各个企业或者机构利用分散在很多不同位置的待训练数据，针对中心深度神经网络进行训练学习，进而可以支持利用共享模型展开协作，但此过程中并不需要共享任何临床数据。

对此，以英伟达资深研究科学家Nicola Rieke为代表的研究人员在相关论文中描述道：“联邦学习在无需共享患者数据的情况下，即可实现协作与分散化的神经网络训练。其中各节点负责训练其自身的本地模型，并定期提交给参数服务器；而该服务器不断累积并聚合各自的贡献进而创建一个全局模型，分享给所有节点。”相比于数据集中式系统，联邦学习提供的方法可以在不共享机构数据的情况下实现很大的分割性能，不但可以保证极高的隐私安全性，通过模型反演还可以做到设法将数据重现。至此我们可以得出结论，联邦学习有望高效聚合各机构，从私有数据中本地习得知识，进一步提高深度模型的准确性、稳健性与通用化能力，并将广泛推动数据驱动型精准医学的进步。

据悉研发专家们为了帮助提高联盟学习的安全性，专门研究试验了使用ε-差分隐私框架的可行性。晶少了解到该框架是一种正式定义隐私损失的方法，可以借助其强大的隐私保障性来保护患者与机构数据。此外通过使用稀疏向量技术，联盟学习系统可以实现严格隐私保护，但只对模型性能产生合理范围内的影响，微小到可忽略。

谈及联邦学习系统的安全机制，英伟达医疗方面声称，关于实际的数据安全，本质上是“模型找数据，而不是数据找模型”。所谓 “模型找数据”实则保证了本地数据完成训练，也是系统的最大优势突破；训练完成的数据进行回传时，确保最少涉及隐私的数据被回传。“联邦系统涉及的隐私其实也分不同层级，在搭建这个系统的时候就给予了一定的数据隐私性考虑。训练完成后，在数据中加入一些噪点，使其变得模糊，改变了原有数据的颗粒度，让联合学习模型更加安全。”

如此看来在“联邦学习”的模式下，其实数据传输的要求是非常小的，因为只是传输了模型中非常少的一部分数据，也就是说只有这一部分数据传输是需要用到网络，而不是整个模型的数据，所以在这样的情况下，模型中少量数据进行传输会带来整个通信成本的降低。

其实对于联邦学习系统的尝试，英伟达并不是首家，业界曾经有将同样的技术应用于android和ios设备上进行键盘定制模型的训练的先例，这种尝试更多侧重图像分类应用层面，其受众量相对较多，甚至可能达到百万甚至千万的体量；相比之下，医疗行业较小众，应用量级并不大，但对底层计算资源要求较高，模型以及数据集的规模均复杂，例如3D医学影像的大小，需要更多的计算能力帮助实现。

基于此，英伟达高级研究人员提出，“这项研究可以被认为是面向可靠联合学习部署迈出的重要一步，未来希望能够在很大范围内实现数据驱动的精确性。”更重要的一点，有消息称，将来还将把联合学习系统纳入Clara平台中集成，想必此举如果实现，开发者们福利颇多。

谈及Clara平台，晶少在今年早些时间就有一篇文章“老旧的医疗设备也能“赶时髦”？“聪明”的NVIDIA Clara说：没问题！”具体讲到过，总体来看正是因为日渐复杂的数据问题，诸如量大且分散，让工作自动化成为关键；而AI技术作为研发更先进工具的重要突破口之一，英伟达Clara应对此类挑战势在必行。

概括来说针对模型训练，Clara内部已经做了大量计算和训练模型的尝试；对于那些预训练的数据，完成解读也是Clara可以胜任的事情之一。此外，Clara平台实际上还提供了可扩展的AI推理功能，初创企业和医疗公司完全可以使用其进行快速和低成本的扩展。基于此Kimberly Powell表示，如今Clara平台的开发者数量增长非常迅速，从今年春季到目前，几个月的时间内，开发者的数量增加了4倍。探究其增长迅速的原因，工具集的高度模块化值得被注意。

“在Clara第一个版本中，整个工作流是提前设定好的，也就是说用现有的模型去训练现有预定好的模型；而在最新的版本中，就可以做到将自己的模型放入平台来做训练，在使用层面表现更加友好。”她补充道。

另外，英伟达还整合了一些开源工具到平台中，例如医疗影像新的浏览器功能，相当于“AI助理分析工具”，可以做到从三个视角观察判断图像，从用户体验角度看更加方便。此外更重要的改善就是性能优化，尤其是在数据加载到训练过程中。如果“数据加载的时间可能比训练的时间还要长”的话，显然不给力；优化过程中英伟达还实现了自动化多GPU训练的尝试等。

采访中，NVIDIA中国高性能计算、产业AI业务总经理刘通总结道，英伟达其实希望搭建现代AI架构下的引擎。引擎涵盖不仅仅是芯片、同样还有系统以及各种各样的软件堆栈等，以此应对这种比原来计算需求强30万倍的训练目标，并在尽短的时间内完成且饱含创新，如此看来在消费级AI中，英伟达更关注数据训练、模型训练等方向。

“目前我们已经进入到了一个新阶段，各个垂直行业均希望能够充分利用在AI领域的最先进技术；而在医疗领域，英伟达其中一个非常核心的使命就是让开发者工具能够更好识别医疗领域的数据，这一点非常关键。”

福利

扫描添加小编微信，备注“ 姓名+公司职位 ”，入驻【CSDN博客】，加入【 云计算学习交流群 】，和志同道合的朋友们共同打卡学习！

推荐阅读：

真香，朕在看了！

登录查看更多

相关内容

联邦学习

关注 200

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

133+阅读 · 2020年3月25日