2017年7月31日,王小川的一封内部信让平静了许久的资本市场热闹起来,同时也让自家的人工智能再次火了起来,尤其是机器翻译技术。王小川内部信中提到,搜狗机器翻译在国际顶级机器翻译比赛WMT (Workshop on Machine Translation)中译英项目中荣获世界冠军,其中八项机器评价指标七项第一,并获得主要机器指标BLEU(Bilingual Evaluation Understudy)第一名。
据了解,WMT比赛是由来自欧洲和美国的高校、研究机构(例如CharlesUniversity、University of Edinburgh、FBK、MSR等)的研究人员联合举办,从2006年开始至今已举办12届,是业界公认的国际顶级机器翻译比赛之一,今年,参赛任务包括英语、捷克语、德语等七个语种的14个翻译方向,参赛队伍也均为约翰霍普金斯大学、爱丁堡大学、俄勒冈州立大学、美国空军研究实验室等国内外业界领先组织机构。
此次搜狗机器翻译获得多个项目第一的中译英系统是WMT今年新增加的翻译方向,搜狗采用深度循环神经网络编码解码框架技术(Deep Recurrent Neural Network Encoder-Decoder)作为主要技术,使用完全端到端的学习方式。
相对于传统的统计机器翻译,深度神经网络翻译技术优势巨大,不但能帮助整个翻译决策的过程技术连续且具有全局性,还能让翻译出的句子更流利。尤其是在翻译调序方面和复杂语法结构翻译方面,看到的历史信息较长和分布式标示词句的特质,使得深度神经网络翻译技术可以使用全部的源端文本和部分目标端上下文信息,也能更好的挖掘词、短语的语义信息。此外,搜狗在比赛系统中还使用多个NMT模型集成技术,针对生成的N-best结果,会引入更多模型(例如语言模型)等特征对模型生成的多个候选结果进行重排序,选出更好的后续结果,充分体现出其在人工智能实用化的领域卓绝的技术。
此番获得冠军是搜狗人工智能实力的见证,比赛中,搜狗机器翻译技术以达到27.2/26.4(BLEU/BLEU-cased)的高分成绩领先其他选手。
资料显示,搜狗机器翻译团队成立于2016年,是搜狗知音引擎的重要技术方向,成立之初,基于知音引擎团队在语音技术方面的积累,搜狗机器翻译团队仅用半年时间,就自研完成了独创的神经网络机器翻译技术,并在2017年5月的wmt国际评测中获得中英翻译的冠军。
搜狗机器翻译团队表示,搜狗发展AI一直坚持的都是“实用”这一衡量标准,此次参赛使用的神经网络机器翻译技术除了运用在会议中的搜狗同传产品外,像是搜狗输入法上线的中译英语音翻译和文本翻译功能中也有体现,未来,以搜狗机器翻译为代表的各项人工智能技术也相继应用到产品中去,不断深耕更多更实用的技术场景。