实验室一块GPU都没有怎么做深度学习?
前段时间,kaggle比赛+会议的deadline,快把我逼疯了,每天调参跑模型,最近终于解放了,不用绞尽脑汁和SOTA战斗,太苦了,现在有时间,正好补充一下之前的回答
主要是最近训练强度大,一直辗转各路GPU资源,也有了一点心得,特别是一些坑,建议大家提前闪避,总的来说,恒源云算比较靠谱的,下面就和大家分享一下我的踩坑经历吧
楼上的回答已经很丰富了,比如大家强力推荐的Google colab、kaggle这些国外资源,都有一定的免费额度,虽然我也注册并尝试使用了,但中途还是放弃作罢,体验过程实在有些折腾,对了,提前要备好梯子哈
先说Google colab吧,本以为一注册打开notebook,就可以开始训练了,但页面好像看不到GPU的选项,貌似只能等待被分配,点开帮助说明
官方说,不能保证资源供应、使用限额随时波动、GPU类型不停变化,只有这样,才能免费提供资源
原来,免费版只能用K80,只有收费版才能用T4、P100,emmm,还是把免费资源让给更需要的人,我再看看其他平台
打kaggle比赛的,肯定都蹭过官方的资源,听说一周有几十个小时,本着能蹭一点是一点的原则,我也瞧了一眼
GPU呢?为啥加速器里,啥都没显示?一查,原来得弄个谷歌助手,需要手机验证才行,还经常收不到验证码,我又裂了,国外的玩不转,国内的也许会更香呢
说起国内的深度学习平台,大家都知道度娘的AI Studio,我一打开官网,就被免费的算力卡吸引了,完成4个任务,就有机会获得,正当我进行第2个任务,开始创建自己的项目,勾选框架时,清一色的paddle框架,简单之美我领略到了
学习能力强的盆友,框架也许不是个事儿,我假装无事发生,继续下一步,终于到了选GPU的时候了,当然要高级版,V100,嗯还不错,显存16g,什么,不是32g版本的,那岂不是和3090差不多,让我再想想(要哭了
终于,懒癌晚期的我,累了,后面开始找一些国内的云平台,企图薅一些新人福利,不过也有惨痛的教训,有的平台服务太不稳定了,停电故障各种,虽然也有补偿,但是训练着急,耽误不了,一圈体验下来,恒源云
算非常稳的了,也没掉线过,环境配置还挺友好的,框架工具齐全,使用起来比较方便,适合学生党
创建实例时,速度还挺快,集成了Jupyterlab和Tensorboard,也可以PyCharm、VSCode远程连接
平台支持按分钟计费,关机也不扣费,我都是弄好环境,做个自定义镜像,下次使用时,可以直接通过自定义镜像创建
至于训练数据,我都是存在平台的NAS中,不用担心数据丢失,也不需要重复配置环境和传数据
而且,以前总是为各种数据集犯愁,有的数据集毕竟很大,个人硬盘和云盘都有限制,下载的时候不太方便,这家平台倒是提供了很多常用的数据集,可以直接在服务器上使用
我是年前注册的,注册和邀请的券,用来跑kaggle比赛,现在还有剩的,之后的paper,希望能挺住,感兴趣的盆友可以试一下,反正注册免费,还能无门槛体验英伟达最新机型3090
大家可以通过我的邀请链接注册,双方都有券,另外,学生党可以申请学生认证,领取学生专属折扣,邀请链接:
想起以前,大家还是用CPU训练,现在模型越来越复杂,数据集也越来越大,没有GPU几乎行不通,都是和时间赛跑
如果实验室没有资源,还是有必要和导师争取一下,不管是直接买卡,还是跟云平台合作,现在算力决定的时代,不得不认清现实,学术之路注定漫漫,和大家一起加油