近日,在日本京都召开的第14届文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR)上,首届阿拉伯文视频文本检测与识别竞赛结果揭晓。清华大学电子工程系媒体大数据认知计算研究中心彭良瑞副教授研究组在文本检测全部七项子任务上夺冠,并在文本识别七项子任务中的三项上获得第一名。
文档分析与识别国际会议是国际模式识别学会自1993年起主办的文字识别领域最为重要的国际学术会议。近年来,由于阿拉伯文视频文字识别逐渐成为文字识别领域的研究热点之一,文档分析与识别国际会议在2017年首次组织“阿拉伯文视频文本检测与识别”(Arabic Text Detection and Recognition in Multiresolution Video Frames, AcTiV)竞赛。该竞赛由瑞士弗赖堡大学等单位承办,包括文本检测与文本识别两项任务。竞赛所用视频样本涵盖了不同字体、文字大小、前景颜色以及背景复杂度等变化。参赛者包括清华大学、中国科学院自动化研究所、突尼斯斯法克斯 (Sfax)大学等高校与学术机构。
彭良瑞研究组所提交的参赛算法为最新研制的基于深度学习的视频文本检测与识别方法。其中,视频文本检测算法采用基于卷积神经网络的方法,视频文本识别算法采用基于循环神经网络的方法。参加算法研究的学生包括闫睿劼、向东来、王雅琪、王学诚、陈立人和郭家明等。相关研究工作得到973项目“面向三元空间的互联网中文信息处理理论与方法” (课题编号2014CB340506)和国家自然科学基金项目 “多文种拍摄文档图像识别理论与方法” (项目编号U1636124)的资助。
彭良瑞研究组所属的电子工程系智能图文信息处理研究室在多文种文字识别、人脸识别、视频监控等领域具有长期深厚的研究基础。
阿拉伯文视频文本识别获奖证书
阿拉伯文视频文本检测获奖证书
承担彭良瑞研究组算法研究的设备由我司提供,采用5台思腾IW4200-4G GPU服务器组建GPU并行计算集群。
思腾IW4200-4G
产品介绍:
采用最新的Intel Xeon系列处理器(双处理器),高达2TB超大内存容量扩展和多达7个PCI-E 3.0的扩展槽,提供了强大的性能和扩展能力。支持四片主流GPU计算卡,最高可带来48万亿次每秒的单精度浮点计算能力,最高可支持8个3.5”硬盘,整机静音设计,预装深度学习软件环境,满足深度学习、科学计算及专业图形图像处理的需求。
应用领域:
深度学习训练
多媒体制作
密码破解
气象预测、量子化学、流体力学、地质勘探
有限元计算
GPU渲染
视频编解码
重要用户:
汉王科技
徐州矿业大学
北京工业大学
饿了么
广州图普
本项目中集群概况:
计算节点采用5台思腾IW4200-4G,每台搭载NVIDIA tesla P100*2
存储节点采用思腾IR4200,配置存储空间80TB,NFS共享
数据链路采用Infiniband 56Gb/s
集群软件采用支持docker的GPU容器管理平台
提供7*24h的售后技术支持服务
总结:
GPU并行计算解决方案,必将推动人工智能产业更快更好地向前发展;思腾合力作为NVIDIA精英级合作伙伴,将承担起新时代赋予我们的责任,为更多的科研单位和企业提供更加完善的视觉计算解决方案。