大家好,我是Joyce,和小瑶一样,也是搞算法的,不过还在学术界摸鱼,偶尔能抓到一条顶会锦鲤,大多数时候,都是一些小鱼小虾,目前已被boss放养,每周组会都是隐形人...
转眼,暑假余额告警,低年级小盆友兴高采烈,等着食堂开门,高年级大盆友一脸平静,透露着打工人的自觉,没看完的代码,没复现的论文,在导师的一句问候下,突然进入冲刺阶段,ddl才是最强生产力,这句话没毛病。
文献看了多少篇了?毕设开题写好了吗?AAAI论文改完了吗?比赛进入复赛了吗......因为导师的关爱,开学前后这段时间,想必都是充实有意义的呢(成年人的微笑
前几天,突然紧张的疫情,又让何时回校成了未知,无法使用学校资源,或者学校GPU不够用,着实困扰着一批童鞋,为了让大家顺利赶上ddl,今天安利一个本人也在用的云平台,希望能解决大家的燃眉之急。
就个人踩坑经历来说, 恒源云 还是比较容易上手的,如果懒得看文档,又想迅速开启云端训练,让程序快快跑起来,请务必服用本篇教程,3分钟即刻见效(文末有粉丝福利,锁住它~
顺便搬了一个官方教程视频,配合观看效果更佳(热知识:本视频关注+点赞+评论后,可以领取20元羊毛券🐑
首先,注册登录gpushare.com,直奔新人礼包准没错,目前恒源云的 新人福利有100元礼券 ,代金券可以直接下单,如果跑4.5元/小时的3090,应该有近二十个小时吧。
要注意的是,有一些特价机器,比如1.8元/小时的2080ti 、6元/小时的V100,暂不支持代金券,需要先充值再租用,充值没有限制,100元以上就有返券,充值金额也是永久的。
计费模式的话,短租可以按量付费,按小时结算,长租可以包周/月,分别享受8.5/7折的优惠力度,学生还有专属折扣,以及 100元学生券 。
正式创建实例前,选择适合的GPU非常重要,如果模型耗显存,可以考虑16G的5000、24G的3090、32G的V100,如果耗内存,也有单卡分配了64G CPU的机型,具体参考下方的价格表(自己做的,有点简陋请忍住~
确定了GPU的类型、数量后,就可以搭建训练环境了,官方镜像里,主流框架TensorFlow、PyTorch、MXNet、PaddlePaddle等都预装了,可以直接勾选需要的版本。
如果没有合适的,进入实例后,也能自行安装软件包库,创建自定义镜像,实现长期保存环境,后续无论何时,通过自定义镜像,创建新的实例即可。
几秒完成实例创建后,就可以连接登录实例了,平台支持Xshell、PuTTY、MobaXterm之类的ssh终端登录,JupyterLab、PyCharm、VSCode等编译工具,文档也有详细的使用说明。
我一般用页面自带的JupyterLab,无论PC端、移动端,点击链接直接打开,轻松运行终端和代码,交互友好,一用就会,稍微提醒一句,关闭浏览器并不能停止训练,确认终端关闭了才行噢。
成功登录实例后,接下来的训练,都是在云端进行的,训练所需的代码和数据集,也需要提前传输上去,因此,本地数据传至实例内,这一步骤非常关键。
平台数据传输的方式,多种多样,Sftp、Filezilla等都支持,但数据太大的话,难免意外中断,而官方推荐的Oss工具,要靠谱得多,命令简单,速度又快,一分钟理论值3G左右,体验很香。
至于传输的流程,省钱又快的方式是,通过oss命令工具,先把数据从本地上传到个人数据空间,云盘容量限免50G,训练时,再从个人数据空间下载到实例里。
关于实例存放数据的目录,主要有两个,一个是NAS存储,限免50G,多实例共享的,而且长期保存,另一个机器本地盘目录,不限制数据大小,速度快,不过有一定的保存期限,注意备份训练结果就好。
另外,平台内置了几百个公共数据集,各种主流平台、竞赛平台的数据,每天都在更新,使用时,简单拷贝即可,省去了不少上传时间,若有需要帮助下载的,可以在社区发帖,平台反馈速度挺快的。
数据传输之后,把代码也复制过来,就可以跑起来了,训练过程中,注意关注显卡使用情况,nvidia-smi 或者 py3smi 命令查看,争取提高利用率,让训练达到最佳效果。
在这里,分享一些 个人使用的tips :
■ 平台团队功能,如果符合条件,一定要申请,真的很方便,之前我和组里成员,跑一个小课题,共享了实例和镜像,协作效率大大加成。
■ 平台有小程序,可以对实例进行操作,不用一直守着电脑,随时随地就能关机、重启等,公众号也有一些提醒服务,关注领取了代金券后,建议不要取关。
■ 恒源云应该是活动最多的GPU云平台了,自注册以来,本人参加过3090包周/月抽奖、分享笔记有奖励、200元竞赛赞助、视频号互动送代金券等等,如果希望一直有券白piao,可以在技术社区贴个邀请链接,每成功邀请一位注册,就有20元代金券。
■ 看到这里,你应该基本了解使用流程了,但平台的宝藏文档,也不容错过值得一看,Conda、Visdom、Spyder、MMCV等都有教程,总能发现惊喜哟。
▼ 扫码直达大型福利会场~
不知不觉码了这么多字...虽然本篇主要介绍GPU云平台的使用方法,但是比起训练工具,训练过程中的思考,如何设计优化模型,如何提高验证效果,并发现总结创新点,能真正解决一些实际问题,这才是深度学习科研的本质和追求吧。
小可爱萌,转发本篇推送至朋友圈/社群(200人以上),保留2小时后截图发给客服,即可领取恒源云代金券(能直接下单跑训练噢),本号专属限量福利,先到先得!
本号粉丝转发可获得20元代金券,若完成恒源云学生认证,奖励升级为50元代金券,8.31前截止领取哈~
扫码联系客服领取福利
▼ 点击“阅读原文”,注册领取 100元新人礼券