中国AI公司公开击败谷歌微软，这次是Yi+AI视觉团队

2018 年 7 月 30 日 量子位

本文转载自Yi+AI团队

2018年7月，在国际权威计算机视觉竞赛PASCAL VOC comp4目标检测竞赛中，Yi+AI团队获得了目标检测单模型第一名，超越了现有排行榜中的微软研究院、谷歌、阿里达摩院、Face++等国内外众多知名公司，以精度90.7%的成绩打破了世界记录，成为世界第一家总成绩突破90%计算机视觉企业。同时在Pascal VOC “comp3”中，首次突破80%，刷新世界纪录。

Pascal VOC comp4是众多国内外企业物体检测团队证明自己实力的地方，此次Yi+力压群雄，取得了90.7%的成绩，比第二名的阿里达摩院高了1.5个百分点，在物体检测领域，1.5个百分点意味着需要比对方“多”检测正确6000多个框，同时值得注意的是，此次Yi+AI团队使用的是难度更高的单模型，而第二名的方法是多模型融合。

PASCAL VOC可谓视觉识别类竞赛的鼻祖，包含了物体分类、目标检测、图像分割等任务。PASCAL VOC对计算机视觉的发展具有深远而巨大的影响，后续的ImageNet竞赛的任务设置就基本沿用了它的设定。此前，微软、英特尔、CMU、Facebook、UC Berkeley等国际顶尖研发团队先后在这个排行榜上刷新纪录。

Yi+AI的负责人表示，在此次Pascal VOC comp4竞赛中，Yi+AI团队使用的方法叫做FXRCNN，其中“X”，代表“多元”的意思，意味着Yi+AI使用的结构不仅仅是高准确率的模型，同时也适用多元场景，包括移植到移动端（通过更改Backbone和Head），实现图像分割（增加Mask分支），实现人体关键点（增加Key point分支），实现人脸检测（增加Face分支）。

Yi+提交的深度学习模型，虽然采用了Faster RCNN的基本结构，但有很多不同之处：

1）采用ResNeXt作为基础网络，结合FPN实现多尺度特征融合；

2）在后处理阶段，采用SoftNMS和多框投票融合；

3）通过Yi+海量数据进行预训练；

4）多尺度训练，进一步加强数据增强。本次提交的模型，是Yi+多年来技术积累的结果，是通过不断的攻克实际问题的结果，是Yi+内部模型不断优化的结果，Yi+ AI的FXRCNN在速度，内存，精度，应用范围等多维度进行了全面的优化。

在人工智能领域，目标检测技术应用广泛，是Yi+AI场景落地的关键性技术之一。

Yi+将目标检测技术应用在图像搜索引擎和图片视频结构化引擎中，Yi+图像搜索引擎可检测类目超100类，覆盖服饰、3C商超、家居、日用品、交通工具等；Yi+图片视频结构化引擎则采用目前业界最领先的基于深度学习的通用目标检测算法，支持超过300类常用物体的目标检测、识别，可实现对视频和图像中的场景、人、车辆、物体（轮廓）检测、识别、分割、跟踪；可识别近10,000种物品，400种场景。