在这个数据为王的时代,深度学习擅于发掘多维数据中错综复杂的关系。基于大数据的深度学习算法在计算机视觉、自然语言处理以及信息检索等多个领域不断刷新着记录。
来源: AI科技评论
AI 科技评论注:本文作者为中国科学院信息工程研究所张晓宇副研究员和电子科技大学李长升研究员。
随着移动互联网和物联网的快速普及,全球数据总量呈指数级增长。据雷锋网统计,我们每天创造约2.3万亿GB数据。
过去,人们对海量数据无从下手。随着大数据与人工智能、云计算、物联网、区块链等前沿技术的紧密融合以及硬件基础设施的快速发展,这些新兴技术为数据增值提供了强有力保障,由此带来了巨大商业应用价值,并逐渐成为各国抢占下一步发展机遇的战略性技术。
最近,美国政府启动了大数据研究计划,致力于提升大数据分析算法和系统的效率;同时,日本对信息产业提出新的战略规划,将大数据作为重点发展的科技领域,着重强调数据采集与分析;近年来,我国大数据产业蓬勃发展。中国信通院在2018年发布的《大数据白皮书》进一步调动了全国各地发展大数据的积极性,各行各业开始利用大数据进行智能升级转型。
在大数据技术中,数据分析逐渐成为其核心技术,包括对数据处理的实时性成为工业界的主要需求。当前,各种数据分析技术层出不穷。其中,最为引人关注的当属深度学习技术。
深度学习仍是目前大数据处理与分析的最好方法之一。
深度学习擅于发掘多维数据中错综复杂的关系。基于大数据的深度学习算法在计算机视觉、自然语言处理以及信息检索等多个领域不断刷新着记录。
在这个数据为王的时代,深度学习中的监督/半监督学习与数据规模、数据质量等有很大关系,因此数据标注是在现实场景中提升模型性能的最直接有效的方法。
但由于传统的数据集数量/质量有限,在解决新的问题或是想要获得更好的效果时,往往需要进行额外的数据标注。因此,对于数据要求不那么高的半监督/弱监督学习一直是视觉大数据处理中的热点问题。同时,当使用某数据集训练了一个很好的模型,但在实际应用时,往往由于“领域鸿沟”(domain gap)的存在,模型性能大幅度下降,迁移学习是这一问题的常用解决思路。
此外,由于移动设备或物联网设备的存储和计算资源有限,无法像服务器一样轻松地运行训练好的模型,限制了深度学习技术在大数据领域的应用落地,针对此问题,目前有效的解决方案包括模型压缩、计算加速。
生成对抗网络Generative Adversarial Networks (GANs)的提出,为神经网络添加了一个新的分支。该网络结构能极大提高图像生成的质量,进一步推动了计算机视觉领域的发展。
近几年,计算机视觉正在向视频理解领域延伸,而视频比图像多了一维时序信息,如何有效建模并利用这一时序信息是处理这类问题的关键。
深度强化学习是大数据时代的另一研究热点,强化学习是主体通过与外部环境交互来进行学习的过程。目前已经取得了实质性的突破,2017年DeepMind公司的提出的AlphaGo Zero通过自我博弈的强化深度学习算法进行训练,经过3天的学习,以100:0的成绩超越了AlphaGo Lee的实力(以4:1战胜李世石的版本),21天后达到了AlphaGo Master的水平,并在40天内超过了所有之前的版本。
自2017年以来,AutoML(Automated machine learning)迅速兴起,AutoML试图将特征提取、模型优化、参数调节等重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。但目前其在搜索效率、实际应用等方面有待进一步探索。
计算机视觉是人工智能领域最为成熟的技术之一,其主旨在于利用计算机模拟人类视觉,是人工智能中的‘看’,进而为后续的应用目标提供判别信息。计算机视觉研究和应用非常广泛,近几年取得了快速的发展,其应用已经在政府、金融、互联网等行业市场率先落地。
此外,利用大数据可以对实体经济行业进行市场需求分析,优化生产流程、供应链与物流能源管理,以及提供智能客户服务等。虽然大数据已经服务于众多行业,但是在实际应用中还有很多局限,仍旧有很多问题没有解决。
近年来,国家对人工智能行业的大力支持为计算机视觉的发展提供了有利环境,极大促进了计算机视觉的商业化落地。目前我国共有100余家计算机视觉企业,涉猎身份认证、安防影像、医疗影像等众多领域。
目前CV公司比较集中的技术赛道有:人脸识别、自动驾驶、医疗图像等,目前商业化落地最快的仍是人脸识别及其业务相关的一些技术。
纵观计算机视觉发展,可以看到中国与西方国家的演进路线的不同。国际上前沿的技术主要集中在深度学习的基础研究层面,而中国的计算机视觉技术更倾向于产业落地。经过多年的沉淀,中国已经在人才、数据、场景和政策层面做了比较多的储备,为中国计算机视觉技术的发展提供了丰沃的土壤。
尤其是在应用方面。计算机视觉领域一定要通过落地应用才能更好推动学术的发展,而中国在这方面具有巨大的优势。
张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹联合推荐
这是一部力图破解21世纪前沿科技大爆发背后的规律与秘密,深度解读数十亿群体智能与数百亿机器智能如何经过50年形成互联网大脑模型,详细阐述互联网大脑为代表的超级智能如何深刻影响人类社会、产业与科技未来的最新著作。
《崛起的超级智能;互联网大脑如何影响科技未来》2019年7月中信出版社出版。刘锋著。了解详情请点击:【新书】崛起的超级智能:互联网大脑如何影响科技未来
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”