百度PaddleHub NLP模型全面升级,推理性能提升50%以上

2020 年 4 月 20 日 AINLP
提到人工智能你会想到什么呢?大雄身边的哆啦A梦?帮助地球清理垃圾的机器人瓦力?还是温柔暖心的大白呢?无论是哪个,他们都有一个共同的特点,就是为人类提供帮助。
 
随着进入人工智能的时代,人们将逐渐从繁重的劳动中解放出来。但是在人工智能的重要领域深度学习中,如果还需要开发者一点点的收集大量的标注数据、一行行的编写程序构建网络,一步步的训练模型,那真的只能让人体会到人工,而看不到智能了!
 
那么有没有办法改变这个状态呢?如果有一款利器可以帮助开发者实现一键式加载模型,十行代码完成迁移训练,是不是很期待呢?
 
相信此时此刻,一些长期关注我们飞桨的老朋友们,一定知道我要想说啥了。对!就是由国内最早开源开放、功能完备的开源深度学习平台飞桨所提供的预训练模型应用工具PaddleHub!


PaddleHub为开发者提供了飞桨生态下的各类高质量预训练模型,涵盖了图像分类、目标检测、图像生成、图像分割、语义模型、词法分析、情感分析、文本审核、视频分类、关键点检测等场景。开发者可以直接使用这些预训练模型结合PaddleHub Fine-tune API快速完成迁移学习到应用部署的全流程工作。
 
各位看官留步!别走啊,咱这可不是炒冷饭!因为上述都是铺垫!都是铺垫!铺垫!重要的事情说三遍!下面才是最重要的!



如今,PaddleHub经过去年一年的打磨,变得更加成熟,最新的1.6版本震撼来袭,新增五大亮点!


  • 助力抗疫,新增口罩佩戴检测模型和CT影像肺炎分割模型。
  • NLP预训练模型升级,增加文本鉴黄模型,助力文本审查工作。
  • 全面集成Paddle Inference原生推理库,预测性能提升50%以上。
  • 开放预训练模块制作流程,支持开发者贡献模块至PaddleHub平台。
  • 新增Bert Service文本向量服务,支持对任意文本获得高质量语义表示。
 
接下来就带领各位看官详细品一品以上这五大亮点!

01
助力抗疫,新增口罩佩戴检测模型和CT影像肺炎分割模型


在2020年辞旧迎新之际,一场突如其来的新冠肺炎疫情使武汉一夜封城,各省市陆续启动重大突发公共卫生事件一级响应。人们由期待新年到来的激动心情转变为陷入焦急恐慌的情绪中。

图1 武汉新冠肺炎爆发
 
为了防止疫情扩散,人们纷纷响应国家号召,尽量减少外出,必要外出时必须带上口罩。同时,这也带来了新的挑战——高密度的人流导致基层排查人员面临着人手不足,以及接触疑似患者的风险。只有适应新情况的人工智能技术才能减轻他们的工作压力。


图2 新冠肺炎应对措施
 
在全国人民紧张抗疫的时刻,2月13日飞桨PaddleHub开源了业界首个口罩人脸检测及分类模型。基于该模型检测设备可以在公共场所中扫描大量人脸的同时,把佩戴口罩和未佩戴口罩的人脸分别标注出来,快速识别出不重视、不注意病毒防护、心存侥幸的人员,减少公众的防疫安全隐患,同时构建更多的防疫公益应用。
 
  • 模型在线体验:
https://www.paddlepaddle.org.cn/hub/scene/maskdetect
  • 模型使用示例:
https://aistudio.baidu.com/aistudio/projectdetail/267322
 
图3  PaddleHub口罩检测模型预测示例
 
在“战疫”的另一个主战场——医院中,我们广大医护人员最主要的诊断武器就是CT影像,它是新冠肺炎筛查和病情诊疗的重要依据。在疫情诊疗的关键时期,存量患者和新增患者总体数量非常庞大,医生需要对患者不同进展的多次CT影像检查进行随访比对,以对患者的病情发展和治疗效果进行精准评估。如果采用传统肉眼检查医学影像的手段,医生不仅工作量巨大,也难以保证对患者病情做到长期的精准评估和及时比对。
 
图4 医护人员分析肺部影像
 
在全社会抗击疫情医疗资源紧张、医生超负荷工作的情况下,超量的CT影像检查无疑会对一线抗疫工作形成巨大的医疗资源需求挑战,并影响患者的诊疗速度。2月28日,连心医疗携手飞桨在PaddleHub开源了肺炎CT影像分析模型。同时CT影像肺炎筛查与病情预评估系统的上线,有效缓解了临床医生的工作量,加快患者诊疗速度,为缓解医疗资源不足和取得抗疫的最终胜利提供助力。
 
  • 模型在线体验:
https://www.paddlepaddle.org.cn/hub/scene/pneumonia
  • 模型使用示例:
https://aistudio.baidu.com/aistudio/projectdetail/289819
 
图5  CT影像肺炎筛查与病情预评估系统

02
NLP预训练模型升级,增加文本色情信息检测模型,助力文本审查工作


随着AI技术的发展,人力成本不断提高,深度学习模型在各行各业的应用领域越来越广阔,用户对于深度学习模型的应用与性能需求也在不断的增多。因此PaddleHub与时俱进,将应用较为广泛的自然语言处理(NLP)领域的模型库全面升级。




  • Porn Detection模型介绍:
https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=TextCensorship

03
全面集成Paddle Inference原生推理库,模型推理性能提升50%以上

对于工业级部署而言,要求的条件往往非常繁多而且苛刻,例如推理速度快、内存占用小等等。新版本PaddleHub内置了飞桨原生推理库Paddle Inference。通过飞桨核心框架的计算图优化技术,针对不同平台和不同应用场景深度适配和优化,具备高吞吐、低时延的特点,使飞桨模型在服务器端可完成高性能预测部署。如图6所示,与升级前相比,无论是可直接推理模型(例如LAC、Senta),还是Fine-tune后的模型(例如ERNIE),其推理性能均提升50%以上。

图6 升级后推理性能提升示意图


04
开放PaddleHub预训练模块制作流程



在过去的一年中,PaddleHub的Fine-tune API功能受到广大用户的好评。同时了解到用户对于训练好的模型如何做到通过hub.Module(name="***")实现一键加载也十分感兴趣,而且将Fine-tune后模型用于部署推理成为了很多用户的刚需。相信有不少用户希望这道封印能够消失!


现在告诉大家一个“喜大普奔”的好消息!新版本PaddleHub开放预训练模型和Fine-tune模型转化为Module的流程,并且可以使用一键加载功能。
 
  • 预训练模型转化为module教程:
https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/contribution/contri_pretrained_model.md
 
  • Fine-tune模型转化为module教程:
https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/tutorial/finetuned_model_to_module.md
 
悄悄告诉你们,Fine-tune模型按照上述教程转化为Module之后,还能使用hub命令行工具启动一键部署哦~是不是一次性解决了你的燃眉之急呢?!
 
  • hub命令行工具启动一键部署教程请参见:
https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/tutorial/serving.md
 
为了营造一个良好的社区环境,PaddleHub非常欢迎各位开发者贡献模型,供大家使用。关于贡献模型可以通过文章最后的联系方式告诉我们,我们一定会第一时间回复您!
 
05
Bert Service文本向量表示服务

对句子的向量化表达提取是文本理解任务中的重要环节。Bert Service是基于Paddle Serving框架的快速模型部署远程计算服务方案,如下所示,它可以让开发者仅使用一行命令,就可将PaddleHub中丰富的语义预训练模型转换为文本向量服务。然后用户可以通过远程调用API接口的方式使任务文本转换为高质量的向量表达,完成特征提取工作。
 
#一个命令启动文本向量表示在线服务,获得ERNIE Tiny文本表示
hub serving start bert_service -m ernie_tiny
 
部署成功后,Bert Service在线服务部署在服务器上,而用户可以在另外的普通机器上通过客户端接口轻松获取文本对应的Embedding信息,大大减少用户对机器资源的依赖。
 
图7  Paddle Serving框架流程图
 
  • Bert Service使用介绍:
https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.5/docs/tutorial/bert_service.md
 
以为这样就结束了吗?别急!PaddleHub的功能远不止于此!如果想了解更多关于PaddleHub的信息,可以通过PaddleHub Github repo
https://github.com/PaddlePaddle/PaddleHub )统统了解到!别吝啬你的小星星,如果觉得好用,快给我们一键三连吧!


最后插播一条广告,PaddleHub的第一期创意赛(AI人像扣图)已经胜利结束,想了解获奖创意的小伙伴们请点击:


看看大家把AI抠图玩出了什么花


注意!这只是第一期!第二期创意赛已经开始,感兴趣的小伙伴们不要错过啊!欢迎点击阅读原文或者下方链接,即可报名:
https://aistudio.baidu.com/aistudio/competition/detail/35
 
如果使用过程中遇到任何问题,大家可通过以下联系方式进行技术交流及问题反馈。
  • PaddleHub issue:
    https://github.com/PaddlePaddle/PaddleHub/issues
  • 官方QQ群: 703252161 。如果您加入官方QQ群,您将遇上大批志同道合的深度学习同学。

如果您想详细了解更多飞桨的相关内容,请参阅以下文档。


  • 官网地址:
https://www.paddlepaddle.org.cn


  • PaddleHub项目地址:
GitHub:  https://github.com/PaddlePaddle/PaddleHub
Gitee:    https://gitee.com/paddlepaddle/PaddleHub
 
  • PaddleHub 官网:
https://www.paddlepaddle.org.cn/hub


  • PaddleHub 预训练模型:
https://www.paddlepaddle.org.cn/hublist


  • PaddleHub 文档:
https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.6/docs


  • PaddleHub demo:
https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.6/demo


  • PaddleHub AI Studio官方教程示例:
https://aistudio.baidu.com/aistudio/personalcenter/thirdview/79927
 
  • 飞桨开源框架项目地址:
GitHub:  https://github.com/PaddlePaddle/Paddle
Gitee:   https://gitee.com/paddlepaddle/Paddle

欢迎点击 阅读原文 ,即可报名第二期创意赛

END



登录查看更多
0

相关内容

PaddlePaddle(PArallel Distributed Deep LEarning)是由百度推出的一个易用、高效、灵活、可扩展的深度学习框架。 官方网站:https://www.paddlepaddle.org.cn
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
85+阅读 · 2020年6月9日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
已删除
将门创投
4+阅读 · 2019年5月8日
最全面的百度NLP自然语言处理技术解析
InfoQ
7+阅读 · 2017年11月12日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
6+阅读 · 2018年2月6日
VIP会员
Top
微信扫码咨询专知VIP会员