阅面科技发布堪比服务器的终端视觉模块,将云端计算能力搬至终端

2017 年 11 月 5 日 机器之能 有深度的

这家蛰伏了两年的终端视觉公司,在首次发布会后两天的时间内,收获了一百余份订单,是怎样的新品让产业如此兴奋?


撰文 | 王艺、藤子


 11 月 1 日,阅面科技在深圳举办了创立两年来的首次新品发布会,共发布了三款产品:跨模态人脸识别引擎 UniFace、基于 Uniface 的「繁星」AI 芯片视觉模块、以及基于「繁星」的智能客群分析摄像机——「阅客」。


在发布会后,阅面科技 CEO 赵京雷对机器之能透露道,发布会后两天时间内,他们就收获了一百余份订单,此时的赵京雷内心难掩兴奋之情。


阅面科技 CEO 赵京雷


十多年前,赵京雷从上海交通大学博士毕业后,进入 WiseNut 从事搜索引擎和机器学习产品的研发。后来,他加入阿里巴巴,带领一支包括自然语言处理和计算机视觉技术在内的算法团队,产品涉及搜索广告推荐、图像搜索、图像过滤等。


 2013 年,赵京雷创立了虚拟试衣应用「上街吧」,这是一款集自然语言搜索、虚拟试衣、服装搭配、精准购买为一体的手机 App,通过推荐和搜索技术,以图像处理技术为基础,帮助女性穿衣搭配并完成线上购买。


 2015 年,网络上图片、视频数据大量涌现,道路上以及公共场所中的摄像头也非常普及。然而,赵京雷观察到,这些设备并不智能,或者说当时的智能是「伪智能」。因为当时图像信息被采集出来之后,放到服务器端或者云端进行批处理,处理的目的仅仅局限在图像搜索层面。


赵京雷判断,基于计算机视觉技术,让终端设备拥有真正的实时智能化的能力,在未来将有很大的爆发潜力。与此同时,移动端应用市场开始疲软。因此赵京雷放弃「上街吧」,于 2015 年 7 月创立阅面科技,专注于深度学习和计算机视觉,提供嵌入式视觉方案。


人脸识别技术:关键在于跨平台、跨场景、跨领域


作为计算机视觉的重要分支,赵京雷决定从人脸识别入手。「人脸识别的意义在于,它会成为一个新的、统一的、唯一的 ID,它会改造大量智能设备,人们无论是进出某个地方,还是登录或认证,都会基于这个 ID 去实现。」赵京雷说。


基于面部识别的情感认知引擎 ReadFace 是阅面科技推出的首个产品,从 ReadFace 的情感认知技术开始,阅面的技术一步步覆盖性别、年龄等属性的辨识,逐步发展为如今的跨模态人脸识别引擎 UniFace。赵京雷认为,在迭代研发的过程中,阅面科技走过了多个阶段。首先是底层技术,要支持人脸各种各样的基础属性,然后才是识别技术。


在识别技术方面,阅面科技多次在各个国际评测中获得优秀成绩,比如在 2017 年 5 月,人脸检测平台 FDDB 的数据显示,阅面科技的技术已处于行业领先水平,在接下来的 6 月,阅面科技人脸识别技术以 99.82% 的识别精度获得了 LFW 冠军。但赵京雷认为,人脸识别不能止步于识别技术,人脸识别要走向实际应用,需要跨平台、跨领域、跨场景。


「LFW 是一个较为标准的场景,在 LFW 上面达到非常高的水准,只能说明底层算法能力、算法团队很强,(阅面在)这点毋庸置疑。但是,从算法到应用,从标准场景到实际场景,人脸的特质会发生改变。」赵京雷说。


比如,在无人零售的应用场景中,摄像机对顾客进行人脸识别时,顾客通常情况下,并非正面对视摄像头,大多数人是以低头或歪头的状态,通过不同角度进入摄像机的范围。


即使在人物正视摄像头的应用场景,也会存在挑战。比如在人证核查,也就是将身份证照片和人脸进行对比的场景下,就存在年龄跨度的问题。若要对幼儿园的儿童进行识别,底层数据或架构也和通用的识别模式不同。


赵京雷认为,通用的模型已将精度解决到一定的程度,当特定领域,比如幼儿园的儿童识别,以及无人零售中的人脸识别,精度需要更高水准。因此,通用模型需要具备在小数据下迁移学习的能力,快速适应其他领域,让人脸识别技术满足特定场景的精度需求。


「底层的模型都是基于千万规模的数据构建的,但在一个小的领域,样本数据可能就很少。如何把这个模型的能力完整迁移过去,是我们研究的一个重点。」赵京雷说。


据赵京雷介绍,阅面科技在发布会上推出的跨模态人脸识别引擎 UniFace,拥有跨模态与迁移学习能力,与目前主流算法不同的是,UniFace 打破了不同传感器、不同环境、不同场景、不同领域人脸特征表达的限制,例如同一张注册照片能在可见光、红外、3D 三种不同的传感器中进行识别,做到以 FaceID 为连通的人脸识别体系。


「我们的算法既可以在服务器上跑,也能在终端的 DSP、VPU 等专用芯片上跑,还能在 ARM Coretx-A7 甚至 A5 等通用 CPU 内核上跑。」赵京雷进一步介绍。


阅面科技在嵌入式优化上有很深的积累,比如在 LFW 上,UniFace 的精度在 16bit 网络上为 99.82%,8bit 网络为 99% 以上,1bit 为 95% 以上。他认为,移动端模型的优化不能以损失模型精度为前提,而在未来,要以 FaceID 打通人脸系统,移动端和云端就要具有同样的精度。


计算机视觉的三个爆发点:从人脸识别到数据采集再到人机交互


「人工智能落地到行业,一定需要入口,而这个入口一定是硬件,如同智能音箱是语音的入口。人脸识别作为计算机视觉的应用,它的入口在哪里?不是在远程某个服务器的某个 API 上,而是在真正进入家庭、社区、渗入生活方方面面的硬件上。」赵京雷说。


这些硬件既可以是独立的摄像头,也可以是嵌入相机的设备或者其他设备。要实现人脸识别的广泛应用,不能单靠云端,因为云端的优势在于提供基础能力,所有的前端摄像头都需要具备智能的感知和认知层。人工智能技术或计算机视觉技术,正在逐渐贴近生活,向着简单便捷的方向发展是必然的趋势。


「之前的算法更多地是来源于实验室,部署在大型的计算中心、云端,需要很大的计算能力、功耗,无法走进人们的日常生活。」赵京雷说,在这样的情况下,首先要解决算法贴近生活领域时的精度问题,并让高精度的算法以相对较低的成本、较低的功耗运行在贴近生活的设备上。


当各种设备具备视觉能力之后,所有的摄像头将不再是影像采集设备,而成为了数据采集的设备。很多数据采集手段将被视觉代替,摄像头不仅是摄像机,会成为传感器。「室内定位等问题,或者统计客流使用的 wifi 探针技术等,在未来全部会被视觉代替,这将成为计算机视觉未来很大的应用点和爆发点。」赵京雷说。


「这种智能会带来全新的人机交互方式,我们从成立开始就一直认为以下三个点是未来最重要的应用爆发的三个点,人脸识别的需求在当下已经显现,基于视觉数据的分析 1-2 年后会爆发,而 3-5 年后的增长点则是人机交互。」赵京雷分析道。


「繁星」终端视觉模块


「繁星」AI 芯片视觉模块系列正是基于这样的逻辑推出,可搭载适用于不同场景的算法 IP。目前主要包括:繁星-人脸识别模块、繁星-数据采集模块、繁星-人机交互模块。


繁星-人脸识别模块,通过宽动态 Sensor 获取图像或视频流,分析图像或视频流中的人脸图像进行检测和识别,输出结构化数据,可同时追踪和抓拍 30 人,抓取最清晰、角度最好的人脸,抓拍率 99%,误检率小于 0.5%,抓拍重复率低于 10%。同时,支持 2 万人内的完全本地人脸识别。支持本地特征提取后传云端,满足大于 2 万人的人脸识别场景。


繁星-数据采集模块,获取并分析图像或视频流中的人头和人脸信息,进行人数、人群属性以及轨迹分析。可实时记录 15 人运动轨迹及运动方向,可进行进出指定区域的人数统计,准确率达 95%。


繁星-人机交互模块,检测识别图像或视频流中的手势、人脸、人体,并转化为指令使得机器做出正确响应。能够达到毫秒级检测及追踪速度,支持掌、拳、V 字手型、伸掌、握拳、挥手等多种手势操控,具有高鲁棒性的人脸及人体检测追踪运算。


据阅面科技介绍,「繁星」AI 芯片视觉模块尺寸为 38mm×38mm×1.6mm,由 Sensor+ISP+VPU+嵌入式深度学习视觉算法组成,在本地集成了阅面科技的深度学习视觉处理算法,本地深度学习处理功耗仅为 0.5W,整体高峰功耗小于 2.5W。


此外,「繁星」AI 芯片视觉模块支持外接视频输入以及结构化数据的实时输出,既可以作为独立 AI 摄像头嵌入到各种设备中即插即用,也可以作为视觉协处理器。例如,传统摄像机加入「繁星」AI 芯片模块,就能摇身一变,成为一个拥有视觉算法能力的智能 AI 相机。而且摄像头厂商在设计搭载「繁星」的摄像头时,不需要重新设计模具。


推出满足未来趋势和潮流的产品


产品的推出,并非易事。「从成立到现在,很长一段时间,我们都在进行技术研发,不仅涉及算法,还涉及与硬件层的衔接、系统层的应用。我们花了很大的精力进行基础研发,经过长时间积累,希望我们推出的产品能改变行业,增加行业产品迭代的效率或创新能力。」赵京雷说。


而为了给下游摄像头厂商吃颗定心丸,也为了树立「繁星」的使用样板。阅面科技采用自身的「繁星」数据采集模块研发了一款名为「阅客」的智能客群分析摄像机,并连接了阅面科技自身搭建的垂直行业云,并配有手机 App,用户能够通过该 App 实时观察到客群分析情况。利用「繁星」的本地计算能力,阅客可以轻松进行实时客流计数、会员/熟客管理、轨迹管理等功能,商家能实时掌握顾客属性和行为。目前,「阅客」已和苏宁、软通动力、淘咖啡等品牌达成合作。


赵京雷认为,UniFace、「繁星」、「阅客」这三款产品是层层递进的关系,算法——基于算法的硬件——基于硬件的产品。通过这三款产品,阅面科技能将很大部分的视觉识别能力搬至终端;降低 AI 硬件的构建成本,降低技术的使用门槛;方便垂直行业快速开发场景化的智能视觉产品。这意味着,非 AI 技术的行业商家也能轻松开发和部署人脸识别产品和系统,以消费级的价格,做到专业安防级的能力(举例来讲,具备人脸抓拍功能的安防摄像头成本是普通摄像头的 3-5 倍,而使用「繁星」,可以将 AI 摄像头的成本控制在与普通摄像头相近的范围)。


阅面科技成立于 2015 年,对于市场上的计算机视觉公司来说,并不算早。当前在计算机视觉市场上,也有不少的玩家。通常来说,一个新进入的公司要想在这个竞争格局中生存下来,差异化是重要的选择。


然而,赵京雷却表示,「对我们而言,公司发展重点不是差异化,而是思考这个领域产品形式的终极形态」,在赵京雷看来,他们对行业的认知、技术的出发点、产品的出发点、以及未来解决方案的出发点,都是基于对行业终极形态的思考构建的。「我们希望推出的产品能够满足未来的趋势和潮流。如果其他公司与我们认知一致,那我们就比谁走得快;如果我们认为的终极形态跟别人不一样,也还是会根据自己的认知走下去。」赵京雷总结道。


往期文章


大公司:微软亚马逊阿里百度腾讯英伟达苏宁西门子浪潮


创业公司:商汤科技依图科技思必驰竹间智能三角兽极限元云知声奇点机智景驰科技思岚科技追一科技海知智能出门问问钢铁侠科技体素科技晶泰科技波士顿动力弘量研究小源科技中科视拓


人物报道:吴恩达陆奇王永东黄学东任小枫初敏沈威肖建雄司罗施尧耘


自动驾驶:传统变革Uber图森未来速腾聚创驭势科技全球汽车AI大会


应用场景:金融医疗法律新零售网络安全


商业地理:加拿大匹兹堡瑞士


登录查看更多
1

相关内容

阅面科技(ReadSense)是一家人工智能科技公司,希望通过深度学习和计算机视觉技术,让智能机器以崭新的视角看世界。阅面科技专注于研发世界领先的视觉认知软硬件解决方案,为消费级智能机器带来体验最好的面部及表情识别、手势识别、肢体行为识别以及环境感知等技术。
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
55+阅读 · 2020年4月18日
【中科大徐童】多模态语义理解与关联
专知会员服务
83+阅读 · 2019年12月7日
分析 | 抖音背后的计算机视觉技术
计算机视觉life
9+阅读 · 2019年5月31日
开源神经网络框架Caffe2全介绍
北京思腾合力科技有限公司
3+阅读 · 2017年12月12日
Python的开源人脸识别库:离线识别率高达99.38%
互联网架构师
6+阅读 · 2017年12月10日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
百度Apollo1.5:夜间恶劣视觉环境下也能精准识别障碍物!
全球人工智能
5+阅读 · 2017年9月21日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
3+阅读 · 2018年4月11日
Arxiv
4+阅读 · 2018年2月13日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
55+阅读 · 2020年4月18日
【中科大徐童】多模态语义理解与关联
专知会员服务
83+阅读 · 2019年12月7日
相关资讯
分析 | 抖音背后的计算机视觉技术
计算机视觉life
9+阅读 · 2019年5月31日
开源神经网络框架Caffe2全介绍
北京思腾合力科技有限公司
3+阅读 · 2017年12月12日
Python的开源人脸识别库:离线识别率高达99.38%
互联网架构师
6+阅读 · 2017年12月10日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
百度Apollo1.5:夜间恶劣视觉环境下也能精准识别障碍物!
全球人工智能
5+阅读 · 2017年9月21日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员