成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
厉害了!这款百度炼丹神器绝了!
2020 年 11 月 11 日
深度学习自然语言处理
在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习。它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,因其能够大量节约新模型开发的成本,在实际应用中被更广泛地关注。基于此,百度EasyDL零门槛AI开发平台引入了超大规模视觉预训练模型,结合迁移学习工具,帮助开发者使用少量数据,快速定制高精度AI模型。
高质量数据获取难度高,迁移学习提升模型效果
在训练一个深度学习模型时,通常需要大量的数据,但数据的采集、标注等数据准备过程会耗费大量的人力、金钱和时间成本。为解决此问题,我们可以使用预训练模型。以预训练模型A作为起点,在此基础上进行重新调优,利用预训练模型及它学习的知识来提高其执行另一项任务B的能力,简单来说就是
在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,这就是迁移学习(Transfer Learning)
。
迁移学习作为一种机器学习方法,广泛应用于各类深度学习任务中。在具体实现迁移学习时,有多种深度网络迁移方法,其中的Fine-tune(微调)是最简单的一种深度网络迁移方法,它主要是将
已训练好的模型参数迁移到新的模型来帮助新模型训练。
针对一个具体的模型开发任务,我们通常会选择在公开的大数据集上训练收敛、且效果较好的模型,作为预训练权重,在此基础上使用业务数据对模型进行Fine-tune。在Fine-tune时,默认源域(预训练模型)、目标域数据集(用户业务数据集)需要具有较强相关性,即数据同分布,这样我们才能利用预训练模型的大量知识储备,快速高效地训练出针对特定业务场景并具有优秀效果的模型。
但在实际应用场景中,很多用户会面临数据集与源数据集分布不同的问题。比如,预训练模型的数据都是自然风景,但用户的数据集都是动漫人物。类似这种源数据集和目标数据差别较大的问题,在具体应用中较易导致负向迁移,具体表现为训练收敛慢,模型效果差等。
因此,
一个包含各类场景、覆盖用户各类需求的超大规模数据集就十分重要
,
通过这个包罗万象的超大规模数据集训练所得的模型,才能够更好地适应来自各行各业用户的需求,更好地Fine-tune用户的业务数据集,帮助用户在自己的数据集上得到效果更好的模型。
百度超大规模预训练模型便在此背景下产生,在视觉方向,百度自研超大规模视觉预训练模型覆盖图像分类与物体检测两个方向
。
图像分类的预训练模型,用海量互联网数据,包括10万+的物体类别,6500万的超大规模图像数量,进行大规模训练所得,适应于各类图像分类场景;物体检测的预训练模型,用800+的类别,170万张图片以及1000万+物体框的数据集,进行大规模训练所得,适应于各类物体检测应用场景。相对于普通使用公开数据集训练的预训练模型,在各类数据集上都有不同程度效果提升,模型效果和泛化性都有显著提升。
真实测试数据展示百度超大规模视觉预训练模型的强大能力
(以下实验数据集均来自不同行业)
图像分类
在图像分类模型中,使用百度超大规模预训练模型的Resnet50_vd相比普通模型在各类数据集上模型效果平均提升12.76%,使用百度超大规模预训练模型的Resnet101_vd,相比于普通预训练模型,平均提升13.03%,使用百度超大规模预训练模型的MobilenetV3_large_1x,相比于普通预训练模型,平均提升8.04%。
基于百度超大规模预训练模型训练出来的ResNet50_vd,ResNet101_vd和MobileNetV3_large_x1_0,其中比较特殊的几个模型,EffcientNetB0_small是去掉SE模块的EffcientNetB0,在保证精度变化不大的同时,大幅提升训练和推理速度,ResNeXt101_32x16d_wsl是基于超大量图片的弱监督预训练模型,准确率高,但预测时间相对增加,Res2Net101_vd_26w_4s则是在单个残差块内进一步构造了分层的残差类连接,比ResNet101准确度更高。
并且,为了进一步提升图像分类模型的模型效果,在训练层面,图像分类新增了mix_up和label_smoothing功能,可以在单标签分类任务中,根据模型的训练情况选择开启或者关闭。mix_up是一种数据增强方式,它从训练样本中随机抽取了两个样本进行简单的随机加权求和,并保存这个权重,同时样本的标签也对应地用相同的权重加权求和,然后预测结果与加权求和之后的标签求损失,通过混合不同样本的特征,能够减少模型对错误标签的记忆力,增强模型的泛化能力。Label_smoothing是一种正则化的方法,增加了类间的距离,减少了类内的距离,避免模型对预测结果过于confident而导致对真实情况的预测偏移,一定程度上缓解由于label不够soft导致过拟合的问题。
物体检测
在物体检测模型中,使用百度超大规模预训练模型的YOLOv3_DarkNet相比普通模型在各类数据集上模型效果平均提升4.53 %,使用百度超大规模预训练模型的Faster_RCNN,相比于普通预训练模型,平均提升1.39%。
并且,在物体检测方向,EasyDL内置基于百度超大规模预训练模型训练出来的YOLOv3_Darknet、Faster_R-CNN_ResNet50_FPN,其中,Cascade_Rcnn_ResNet50_FPN通过级联多个检测器以及设置不同IOU的重采样机制,使得检测器的精度、和定位的准确度进一步提升。此外,针对用户的需求,新增两种YOLOv3的变种模型,其中,YOLOv3_MobileNetV1,是将原来的YOLOv3骨架网络替换为MobileNetv1,相比YOLOv3_DarkNet, 新模型在GPU上的推理速度提升约73%。而YOLOv3_ResNet50vd_DCN是将骨架网络更换为ResNet50-VD,相比原生的DarkNet53网络在速度和精度上都有一定的优势,在保证GPU推理速度基本不变的情况下,提升了1%的模型效果,同时,因增加了可形变卷积,对不规则物体的检测效果也有一定的正向提升。
综合多项数据可以发现,百度超大规模视觉预训练模型对比公开数据集训练的预训练模型,效果提升明显。
EasyDL
零门槛高效定制高精度AI模型
百度EasyDL是基于飞桨深度学习平台,面向企业开发者推出的零门槛AI开发平台,一站式支持智能标注、模型训练、服务部署等全流程功能,内置丰富的预训练模型,支持图像分类、物体检测、文本分类、音视频分类等多类模型,支持公有云/私有化/设备端等灵活部署方式。EasyDL目前已在工业、零售、制造、医疗等领域广泛落地。
在模型的开发与应用过程中,从数据准备、模型训练到服务部署,开发者在每个环节都可能面对不同的门槛与难点。
在数据准备阶段,如何针对业务需求选择适当的训练数据并正确标注?
进入到模型训练环节,如何选择恰当的模型,精度该如何提升?
到达部署的“最后一公里”,硬件如何选型,又如何快速完成业务集成?
解答疑问的机会来了!
本周六,AI快车道降临“世界历史名城”西安,开源框架高阶营也将由百度资深研发工程师们,从开发全流程、目标检测、“全能”OCR、最前沿的NLP技术、部署工具、昆仑芯片六大方向展开深度讲解,欢迎有AI应用的、热爱深度学习技术等寻求技术突破的开发者们来【高新希尔顿酒店7层3号厅】进行交流,期待在这样一个历史、科研、教育、工业都重点发展的城市与大家共建AI之路!
同日,AI快车道【EasyDL零门槛模型开发营】也在【西安高新希尔顿酒店7层1号厅】
,
百度资深研发高工将会用半天时间,深入浅出讲解技术原理、结合业务与技术解析行业标杆案例,手把手带领学员完成模型开发!更有设备端模型技术原理介绍与展示、研发现身说法分享多年累计模型效果提升经验,助你
短时间超高效取得EasyDL模型开发真经!
同时,也会在线上同步直播,
扫描海报二维码或点击阅读原文,报名进群获取完整课表与直播链接!
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
预训练模型
关注
557
预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
神经网络不work?看下这份《训练神经网络实用技巧》,3页pdf
专知会员服务
56+阅读 · 2020年12月29日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
基于深度神经网络的少样本学习综述
专知会员服务
173+阅读 · 2020年4月22日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
【CVPR2020-Facebook AI】单样本自适应域脸生成,One-Shot Domain Adaptation
专知会员服务
29+阅读 · 2020年4月6日
【CVPR 2020 Oral-北大华为】只用加法的神经网络,重磅开源
专知会员服务
31+阅读 · 2020年4月6日
【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测
专知会员服务
39+阅读 · 2020年4月6日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
【干货】模型不work怎么办?大神Josh Tobin141页PPT告诉你怎么改模型
专知会员服务
30+阅读 · 2019年11月21日
重磅开源! ICCV 2019,华为诺亚提出无需数据网络压缩技术
新智元
5+阅读 · 2019年9月7日
ICCV2019|已开源,华为诺亚方舟实验室提出无需数据网络压缩技术
极市平台
8+阅读 · 2019年9月6日
刷新COCO目标检测纪录!谷歌只靠AI扩增数据,就把一个模型变成SOTA,已开源
极市平台
5+阅读 · 2019年7月2日
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
量子位
6+阅读 · 2019年3月21日
准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg
大数据技术
16+阅读 · 2019年1月15日
专访 | 小白也能搭建深度模型,百度EasyDL的背后你知多少
机器之心
3+阅读 · 2018年9月10日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
如何让训练神经网络不无聊?试试迁移学习和多任务学习
AI研习社
4+阅读 · 2018年4月7日
【迁移学习】大数据时代下的迁移学习--- 机器学习的下一个前沿
产业智能官
6+阅读 · 2018年2月22日
百度自动驾驶事业部总监孙勇义:Apollo计划背后的AI技术| 清华x-lab AI研习社
大数据文摘
3+阅读 · 2017年10月28日
Few-shot Learning for CT Scan based COVID-19 Diagnosis
Arxiv
0+阅读 · 2021年2月1日
New Type I Binary [72, 36, 12] Self-Dual Codes from Composite Matrices and R1 Lifts
Arxiv
0+阅读 · 2021年1月31日
Efficient CNN Building Blocks for Encrypted Data
Arxiv
0+阅读 · 2021年1月30日
Ask2Transformers: Zero-Shot Domain labelling with Pre-trained Language Models
Arxiv
0+阅读 · 2021年1月29日
Few-Shot Domain Adaptation for Grammatical Error Correction via Meta-Learning
Arxiv
0+阅读 · 2021年1月29日
Continuously Indexed Domain Adaptation
Arxiv
8+阅读 · 2020年8月30日
Boundary-weighted Domain Adaptive Neural Network for Prostate MR Image Segmentation
Arxiv
9+阅读 · 2019年2月21日
MDU-Net: Multi-scale Densely Connected U-Net for biomedical image segmentation
Arxiv
10+阅读 · 2018年12月4日
Image Captioning
Arxiv
11+阅读 · 2018年5月13日
What Does a TextCNN Learn?
Arxiv
8+阅读 · 2018年1月19日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
预训练模型
预训练
迁移学习
数据集
视觉预训练
tuning
相关VIP内容
神经网络不work?看下这份《训练神经网络实用技巧》,3页pdf
专知会员服务
56+阅读 · 2020年12月29日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
基于深度神经网络的少样本学习综述
专知会员服务
173+阅读 · 2020年4月22日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
【CVPR2020-Facebook AI】单样本自适应域脸生成,One-Shot Domain Adaptation
专知会员服务
29+阅读 · 2020年4月6日
【CVPR 2020 Oral-北大华为】只用加法的神经网络,重磅开源
专知会员服务
31+阅读 · 2020年4月6日
【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测
专知会员服务
39+阅读 · 2020年4月6日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
【干货】模型不work怎么办?大神Josh Tobin141页PPT告诉你怎么改模型
专知会员服务
30+阅读 · 2019年11月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
中文版4500字 | 数字战场:解读战争中的网络电磁行动
【新书】没有标签的数据:实用的无监督机器学习
【ICML2025】因果感知对比学习用于鲁棒的多变量时间序列异常检测
Nature:大脑中的多时间尺度强化学习
相关资讯
重磅开源! ICCV 2019,华为诺亚提出无需数据网络压缩技术
新智元
5+阅读 · 2019年9月7日
ICCV2019|已开源,华为诺亚方舟实验室提出无需数据网络压缩技术
极市平台
8+阅读 · 2019年9月6日
刷新COCO目标检测纪录!谷歌只靠AI扩增数据,就把一个模型变成SOTA,已开源
极市平台
5+阅读 · 2019年7月2日
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
量子位
6+阅读 · 2019年3月21日
准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg
大数据技术
16+阅读 · 2019年1月15日
专访 | 小白也能搭建深度模型,百度EasyDL的背后你知多少
机器之心
3+阅读 · 2018年9月10日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
如何让训练神经网络不无聊?试试迁移学习和多任务学习
AI研习社
4+阅读 · 2018年4月7日
【迁移学习】大数据时代下的迁移学习--- 机器学习的下一个前沿
产业智能官
6+阅读 · 2018年2月22日
百度自动驾驶事业部总监孙勇义:Apollo计划背后的AI技术| 清华x-lab AI研习社
大数据文摘
3+阅读 · 2017年10月28日
相关论文
Few-shot Learning for CT Scan based COVID-19 Diagnosis
Arxiv
0+阅读 · 2021年2月1日
New Type I Binary [72, 36, 12] Self-Dual Codes from Composite Matrices and R1 Lifts
Arxiv
0+阅读 · 2021年1月31日
Efficient CNN Building Blocks for Encrypted Data
Arxiv
0+阅读 · 2021年1月30日
Ask2Transformers: Zero-Shot Domain labelling with Pre-trained Language Models
Arxiv
0+阅读 · 2021年1月29日
Few-Shot Domain Adaptation for Grammatical Error Correction via Meta-Learning
Arxiv
0+阅读 · 2021年1月29日
Continuously Indexed Domain Adaptation
Arxiv
8+阅读 · 2020年8月30日
Boundary-weighted Domain Adaptive Neural Network for Prostate MR Image Segmentation
Arxiv
9+阅读 · 2019年2月21日
MDU-Net: Multi-scale Densely Connected U-Net for biomedical image segmentation
Arxiv
10+阅读 · 2018年12月4日
Image Captioning
Arxiv
11+阅读 · 2018年5月13日
What Does a TextCNN Learn?
Arxiv
8+阅读 · 2018年1月19日
大家都在搜
SoSITE
用户画像
大型语言模型
机器学习
CMU博士论文
RFID
MMMia
软件无线电
jwcc
“小鹿撞怀”的鹿,可是这只萌萌的梅花鹿?
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top