会员服务 ·

回顾2018的技术进展，拥抱2019的无限未来（文末彩蛋）

2018 年 12 月 31 日 极市平台

在跨入2019的这一刻

我们就像2018年初一样

对这全新的一年充满期许与希望

而如今当我们回首2018

我们是否做到了更好的自己呢

2018，一个时代过去了

物理学家：斯提芬▪威廉▪霍金

“漫威之父”：斯坦▪李

微软联合创始人：保罗▪艾伦

著名主持人：李咏

武侠小说作家：金庸

2018，AI仍在前行

一、2018牛人动态

今年九月，李飞飞Google云AI/ML首席科学家任上离职，重返斯坦福校园任教。而她的接任者，前CMU计算机学院院长Andrew Moore。而在十月初，李飞飞宣布斯坦福大学成立“以人为本AI研究院”（HAI），将和斯坦福大学前教务长John Etchemendy共同担任院长，推动AI研究、教育、政策和实践，造福人类。12月初，李飞飞等6名华人入选ACM 2018 Fellow。

今年吴恩达和他的斯坦福团队发表了多篇医学相关的研究论文，成果颇丰。此外，在一月底吴恩达宣布成立AI Fund投资基金。4月25日，吴恩达开通了deeplearningai微信公众号，并且开始正式更新。5 月 7 日，吴恩达的无人车创业公司Drive.ai宣布将于7月在德克萨斯州弗里斯科市（美国西部城市）提供自动驾驶汽车服务，人们可以通过软件免费叫车。9月26日，吴恩达公布新书《Machine Learning Yearning》手稿及下载。

极市相关阅读：

资源 |吴恩达新书手稿完工，现在开放免费下载！（附pdf下载）

进入FAIR部门之后，何恺明的动向一直备受关注，在三月份左右，他和FAIR 研究工程师吴育昕提出了组归一化（Group Normalization）方法，试图以小批尺寸实现快速神经网络训练，这种方法对于硬件的需求大大降低，并在实验中超过了传统的批归一化方法。这篇论文也获得了ECCV 2018最佳论文。11月23日何恺明等多名研究者发表了《Rethinking ImageNet Pre-training》，使用随机初始化变得到了媲美COCO冠军的结果，颠覆了“预训练+微调”思维定式，引发热议。

极市相关阅读：

全面解读Group Normalization-（吴育昕-何恺明）
ECCV 2018奖项公布：德国团队获最佳论文，吴育昕、何恺明上榜（http://www.cvmart.net/community/article/detail/344）
重磅！ImageNet 并非必要？何恺明新作：Rethinking ImageNet Pre-training 论文详解及问答

二、2018计算机视觉技术突破

1、今年CVPR2018最佳论文提出的工作——Taskonomy。

人类的视觉具备多种多样的能力，计算机视觉界基于此定义了许多不同的视觉任务。长远来看，计算机视觉着眼于解决大多数甚至所有视觉任务，但现有方法大多尝试将视觉任务逐一击破。这种方法造成了两个问题：数据量大和冗余计算。如果能有效测量并利用视觉任务之间的关联来避免重复学习，就可以用更少的数据学习一组任务。Taskonomy 是一项量化不同视觉任务之间关联、并利用这些关联来最优化学习策略的研究。如果两个视觉任务 A、B 具有关联性，那么在任务 A 中习得的表征理应可为解决任务 B 提供有效的统计信息。通过迁移学习，Taskonomy 计算了 26 个不同视觉任务之间的一阶以及高阶关联。例如对于 10 个视觉问题，利用 Taskonomy 提供的学习策略最大可以减少 2/3 的训练数据量。

极市相关阅读：

CVPR2018最佳论文演讲：研究任务之间的联系才是做迁移学习的正确姿势（http://www.cvmart.net/community/article/detail/275）

2、Big GAN

今年 9 月份，DeepMind 团队创造出「史上最强 GAN」，该研究被接收为 ICLR 2019 的 oral 论文。很多学者惊呼：不敢相信这样高质量的图像竟是 AI 生成出来的。BigGAN 生成图像的目标和背景都高度逼真、边界自然，并且图像插值每一帧都相当真实，简直能称得上「创造物种的 GAN」。当在 128x128 分辨率的 ImageNet 上训练时，BigGAN 可以达到 166.3 的 Inception 分数（IS），而之前的最佳 IS 仅为 52.52。

论文：LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS
论文地址：https://arxiv.org/pdf/1809.11096.pdf

3、此外，今年 12 月，英伟达提出了另一种高精度 GAN。

这款新型 GAN 生成器架构借鉴了风格迁移研究，可对高级属性（如姿势、身份）进行自动学习和无监督分割，且生成图像还具备随机变化（如雀斑、头发）。英伟达提出的这种基于风格的生成器能构建非常高分辨率的人脸图像，即 1024×1024 分辨率的图像。

论文：A Style-Based Generator Architecture for Generative Adversarial Networks
论文链接：https://arxiv.org/pdf/1812.04948.pdf

4、Fast.ai 18分钟训练整个ImageNet

今年8月，在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生，用租来的亚马逊AWS的云计算资源，18分钟在ImageNet上将图像分类模型训练到了93%的准确率。前前后后，Fast.ai团队只用了16个AWS云实例，每个实例搭载8块英伟达V100 GPU，结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。这样拔群的成绩，成本价只需要40美元，Fast.ai在博客中将其称作人人可实现。

Fast.ai博客介绍：https://www.fast.ai/2018/08/10/fastai-diu-imagenet/

5、 vid2vid技术

今年8月，英伟达和MIT的研究团队高出一个超逼真高清视频生成AI。只要一幅动态的语义地图，就可获得和真实世界几乎一模一样的视频。换句话说，只要把你心中的场景勾勒出来，无需实拍，电影级的视频就可以自动P出来；除了街景，人脸也可生成。这背后的vid2vid技术，是一种在生成对抗性学习框架下的新方法：精心设计的生成器和鉴别器架构，再加上时空对抗目标。这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上，实现高分辨率、逼真、时间相干的视频效果。

研究论文：
https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址
https://github.com/NVIDIA/vid2vid

三、工具和框架

1、 PyTorch 1.0

根据10月GitHub发布的2018年度报告，PyTorch在增长最快的开源项目排行上，名列第二。也是唯一入围的深度学习框架。作为谷歌TensorFlow最大的“劲敌”，PyTorch其实是一个新兵，2017年1月19日才正式发布。2018年5月，PyTorch和Caffe2整合，成为新一代PyTorch 1.0，竞争力更进一步。相较而言，PyTorch速度快而且非常灵活，在GitHub上有越来越多的开码都采用了PyTorch框架。

PyTorch官网：
https://pytorch.org/

2、AutoML

很多人将AutoML称为深度学习的新方式，认为它改变了整个系统。有了AutoML，我们就不再需要设计复杂的深度学习网络。今年1月17日，谷歌推出Cloud AutoML服务，把自家的AutoML技术通过云平台对外发布，即便你不懂机器学习，也能训练出一个定制化的机器学习模型。不过AutoML并不是谷歌的专利。过去几年，很多公司都在涉足这个领域，比方国外有RapidMiner、KNIME、DataRobot和H2O.ai等等。

3、Auto Keras

这是一个用于执行AutoML任务的开源库，意在让更多人即便没有人工智能的专家背景，也能搞定机器学习这件事。这个库的作者是美国德州农工大学（Texas A&M University）助理教授胡侠和他的两名博士生：金海峰、Qingquan Song。Auto Keras直击谷歌AutoML的三大缺陷：

第一，还得付钱。

第二，因为在云上，还得配置Docker容器和Kubernetes。

第三，服务商(Google)保证不了你数据安全和隐私。

官网：https://autokeras.com/

GitHub：https://github.com/jhfjhfj1/autokeras

4、TensorFlow.js

今年3月底的TensorFlow开发者会峰会2018上，TensorFlow.js正式发布。这是一个面向JavaScript开发者的机器学习框架，可以完全在浏览器中定义和训练模型，也能导入离线训练的TensorFlow和Keras模型进行预测，还对WebGL实现无缝支持。在浏览器中使用TensorFlow.js可以扩展更多的应用场景，包括展开交互式的机器学习、所有数据都保存在客户端的情况等。实际上，这个新发布的TensorFlow.js，就是基于之前的deeplearn.js，只不过被整合进TensorFlow之中。谷歌还给了几个TensorFlow.js的应用案例。比如借用你的摄像头，来玩经典游戏：吃豆人（Pac-Man）。

官网：https://js.tensorflow.org/

（以上部分参考来源：SIGAI、量子位、机器之心）

.....

这一年，人工智能见证了学术界前沿技术的再次突破，也迎来了产业界的应用。其中，计算机视觉算法在各个场景中的应用更是日趋丰富，表现尤为亮眼。

2018，对于极市平台而言，是厚积薄发的一年

2018，我们完成了什么

2018计算机视觉最具潜力开发者榜单

这个秋天，极市平台联合机器之心、中科创达共同举办了“2018计算机视觉最具潜力开发者榜单”的评选活动，聚焦于人工智能技术落地应用最广的计算机视觉领域，我们希望让更多开发者了解自己，让世界看到更多优秀开发者的价值。同时通过这场主题为“定义自己，发现未来”的榜单评选活动，来充分评估开发者的工程化能力和综合实力，推动计算机视觉领域的人才发展。本次活动也得到了许多开发者的响应和支持，共收到有效报名200多人，在经过激烈的角逐和紧张的评审后，极市评选出最佳项目奖、最佳成果奖、最佳影响奖与计算机视觉最具潜力开发者30强。

14场开放分享

这一年，我们继续了2016与2017的计算机视觉纯技术干货的线上分享，每个月邀请1~2位行业内或者学界有经验有水平的嘉宾线上直播分享最前沿的技术，持续多达14期，提供了一个完全免费的计算机视觉技术学习的平台。我们希望能通过我们的努力建立起专业，开放的分享及交流氛围，让大家都得到各自的成长和收获。在极市平台公众号回复1~37即可获取每期线上分享视频及PPT下载地址。

往期分享视频观看：https://space.bilibili.com/85300886/#/

454篇高品质的前沿干货文章分享

这一年，我们总共建立了9个cv交流群和4个专业方向交流群，积累了6千多视觉算法开发者和近2万微信公众号粉丝。我们坚持每个工作日给大家分享高质量的干货文章，2018共计分享454篇计算机视觉前沿资讯，算法技术，论文解读等文章。同时我们也为大家整理了2018顶会精彩文章及干货汇总，2019我们将继续为各位分享前沿技术的文章，共同探讨干货技术交流，共建良好的计算机视觉生态。

CVPR 2018 论文解读及资源集锦（http://bbs.cvmart.net/articles/56）

ECCV 2018 论文解读及资源集锦（http://bbs.cvmart.net/articles/57）

NIPS 2018 论文解读及资源集锦（http://bbs.cvmart.net/articles/69）

上百个开发者在算法及其他层面的深入合作

我们和上百个优质开发者建立起了稳定而长期的项目合作关系，初步打通了算法场景化和商业化的全流程链路，并已成功完成数十个算法的产品化及落地应用。同时我们也与开发者合作进行了视觉竞赛等合作，并取得了全国top3的好成绩。

全国Top3!！极市联合电子科技大学取得京东AI时尚挑战赛三等奖荣誉（附技术方案）

多次视觉技术及开发者福利活动

2018年以来，极市参与及举办了多场计算机视觉技术与开发者福利相关的活动，从线上到线下，从技术共享到互动福利，极市努力地与大家交流和互动，为给每个开发者提供更好的技术服务和干货分享而努力，我们希望极市平台是一个有爱和开放的技术平台，希望每个开发者都能在极市有所收获和成长。

极市亮相VALSE2018，助力开发者分发视觉算法（内附VALSE 现场所有Poster图）

极市&图普联合主办， AI谜题挑战&GPU大奖等你来！

1024，第一期程序员《吐槽大会》开播

双十一免费送|魏秀参新书《解析深度学习：卷积神经网络原理与视觉实践》

圆满落幕！极市与您共同走过PRCV2018盛会（附PRCV现场poster图及议程）

极市亮相中科创达&高通嵌入式人工智能大会，助力开发者工程力认证及算法落地

免费赠书 | 首波圣诞福利：清华大牛手把手教你机器学习与实践

极市“双旦”福利 | 花书，西瓜书、算力棒及智能音箱等大礼包等你来拿

2019，与您同行

在上千视觉算法开发者的贡献和支持下，极市平台慢慢得沉淀与打磨，算法场景化与商业化的全流程链路逐步成熟，以视觉开发者为核心的极市生态逐步建立，以高质量技术干货分享为基础的免费极市分享逐步知名，而下一步，我们希望极市可以成为，一个开发者能使用落地实景集训练算法的工具平台，一个更多开发者算法产品化并规模化变现的算法商城，一个开发者可以用项目实践提高工程化能力提升个人价值降低危机感的认证平台，一个纯CV的技术社区。

2018，我们一路砥砺前行。虽然道阻且长，但我们坚信，在每一个开发者的陪伴之下，2019我们会做得更好，更多。

最后，对所有支持我们的人以及我们的合作开发者说一声“感谢”。感谢一路的陪伴，2019继续同行！