动态 | 中国多媒体大会首日回顾：四大技术竞赛优胜方案出炉，学界业界成果大展示

2018 年 9 月 16 日 AI科技评论

AI 科技评论消息，2018 年 9 月 15 日，中国多媒体大会（ChinaMM2018）于西安正式开幕，此次会议由中科院计算所陈熙霖研究员、北京航空航天大学李波教授、西北工业大学张艳宁教授担任大会主席，特邀报告嘉宾为悉尼大学冯大淦教授、纽约州立大学Buffalo分校陈长汶教授、快手 AI 技术副总裁郑文博士。除了三场特邀报告，今年会议内容涵盖多媒体与人工智能前沿讲习班、专委会沙龙、产业前沿论坛、智能媒体学术高峰论坛、多媒体新技术成果展，探讨方向涉及深度神经网络、视频编码、多媒体内容分析等。

作为专委会主任和大会主席，李波教授对 AI 科技评论表示，今年是 CCF 多媒体技术专委会第二次独立承办中国多媒体大会，今年在去年成功办会基础上，规模更大。去年参会人数在 630 人左右，而今年则达到 850 多人。他进一步表示，今年多媒体专委会同时承办多IEEE媒体大数据国际会议（BigMM2018），两个会议同期举办，也进行了一些合作——共享大会报告，使得会议更加国际化了。

李波教授对 AI 科技评论说道，相比去年来说，今年在成果展示内容方面，也迎来创新。参会成果数量与去年相比，增加了三十多项；在成果内容方面，今年更注重大家所关心的技术问题或行业热点方面的成果，有一批智能媒体方面的成果，如数字视网膜、无人驾驶系统等。

提及今年会议的亮点，他着重谈到新增的四项技术竞赛——用户兴趣建模、AI 在时尚领域的应用、图像压缩后处理、图像去雾处理。雷锋网 AI 科技评论看到，四项大赛的优胜方案也在现场进行了展示。

京东 Fashion AI 挑战赛时尚风格识别冠军由来自业界的个人参赛者丁煌浩和万辉获得，他们详细展示了这次比赛所用的模型、数据增强、调参、阈值搜索、集成阶段的方案，详细信息可以参见文档 http://t.cn/EvfiKiG。

来自陕西师范大学的张鲁同学则获得了基于深度学习的图像压缩后处理竞赛冠军，在这次比赛中，他综合了扩张卷积、残差学习、对称的跳跃链接技术，在最终结果上，他提出的方案只有 10 层卷积，因此运算速度非常快，借助改进的扩张卷积网络，实现了相当于普通卷积 20 多层的效果，再借助残差学习、对称的跳跃链接和对训练数据的处理，进一步实现精度的提升，可以看到，最终的 PSNR 为 36.3686dB，速度为 147.18s。

除了比赛方案展示，企业和高校、研究所也来到现场进行成果展示，共赴这场多媒体盛宴。

企业方面，腾讯展示了 AI 在腾讯视频上的应用，百度对其视觉算法和学术成果进行了视频展示，快手也展示了 AI 技术及多媒体传输算法的应用，爱奇艺则展示了 ZoomAI 视频增强解决方案。当然，除了展示技术成果，各大企业也不忘在现场宣传招聘信息。

来自学术界的成果则更加多样化，北京大学、北京交通大学、北京航空航天大学、中国人民大学、中科院自动化所，上海交通大学、中国科学技术大学、南京邮电大学等多所高校均有成果现场参展，展示内容包括特定领域大规模长视频数据集、基于深度残差网络的视频增强技术、有雨场景下监控视频的高效分析与编码、基于 X 射线的轮胎缺陷智能检测、面向公交系统的智能客服流统计算法与装备。

图：成果展示一角

北京大学字形计算技术实验室中国文字字体设计与研究中心团队带来其智能造字技术方案，他们与方正公司进行了技术上的合作，所产生的个性化字体目前已经应用在QQ等多个平台。现场，他们也展示了在学术上的一些成果，在智能造字技术上，他们重点展示了基于深度学习的中文字库自动生成技术、纹理特效字形自动生成技术、字形结构理解与识别技术。

图：纹理特效字形的自动生成

该实验室学生王逸之对 AI 科技评论表示，他们在 CVPR 和 SIGGRAPH 上也有发表相关工作。谈及参会感受，他表示，比起纯学术会议关注前沿研究，这次会议更多的是学术成果的落地展示，其中深度学习技术应用得越来越多，应用领域也迎来极大扩宽，可以看到很多图片、视频数据在实际中的应用。

北京大学数字媒体研究所的仿视网膜成像芯片也吸引了众人的目光。这一团队利用已经取得的大脑初级视觉仿真结果，突破了仿视网膜视觉信号处理过程的采集成像、编码重构及智能处理技术。在现场，他们展示了一个集成高速摄像系统，据其介绍，目前他们的方案可广泛用于各类高速目标的检测识别和跟踪等任务。更多内容可以访问实验室官网：http://idm.pku.edu.cn/

除了与图像和视频相关的研究，来自中科院自动化所的团队也带来了 www.zhuanzhi.ai 基于人工智能的知识分发平台，这一平台基于机器学习、知识图谱、多媒体语义分析等技术，聚焦提供人工智能领域的知识服务，在大会颁奖晚宴上，该平台获得多媒体前沿技术杰出展示奖。

更多奖项如下图所示。

以上成果也与李波教授的话相互印证，这次参展成果中，可以看到许多具有实用意义的技术。

中国多媒体大会的前身是始于 1992 年的全国多媒体技术学术会议（NCMT），迄今已有二十余年历史，李波教授对雷锋网 AI 科技评论表示，中国目前研究声音、视频、图像的研究团队逐渐多起来了，再加上这几年技术的发展，中国在国际上的影响力也越来越大，在一些顶尖国际学术会议上，中国学者都占了相当大的比例，甚至逐步成为主力军。

他进一步表示，在图像视频应用方面，这几年出现了很多新兴企业，如此次前来参会的快手、商汤、爱奇艺等，而在行业应用上，以海康威视为代表的企业在安防监控方面已经处于国际前列。中国的这些企业，在多媒体应用方面的技术处于前沿，在行业应用的深度和广度上也做得相当不错。

而谈到对多媒体技术的展望，他表示，随着技术的应用越来越普及，会提出一些关于智能媒体方面更深、难度难度更大的问题；如果我们认为目前对语音、视频的分析还处于感知层面，那怎么把声音、图像、文字像人一样有机结合起来进行理解，这就涉及到更复杂的研究，这是从认知层面将信息结合起来。

此外，他说道，在一些实时性较强的系统中，比如无人驾驶系统、导航系统等，时间空间的变化是实时的，涉及到的知识、数据类型更加丰富，也存在更深层次的研究。现在大家谈论大数据比较多，主要在数据分析；进一步发展，需要把数据驱动和知识驱动有机结合，把各种感知信息、经验和决策知识用于视觉导航系统、无人系统，在开放环境的实时系统中进行推广应用，这些都需要更多更高水平的研究和开发。

更多精彩内容敬请关注 AI 科技评论后续报道。