阿里妹导读:阿里小蜜的算法专家们最近在意大利都灵筹备一场国际数据挖掘竞赛。这场竞赛的名字叫CIKM AnalytiCup,是全球著名的公开、公正的大数据开放式竞赛。
去年,这场比赛是与阿里云、深圳气象局合办,最终选手们成功建立降水预报模型,其中最好成绩为RMSE10.997,比主办方提供的标准线提高了25%,大幅提高了短期降水预报的准确性。今年,CIKM再次与阿里巴巴集团携手,与阿里小蜜团队一起举办本次竞赛。
阿里小蜜是什么?
阿里小蜜是阿里巴巴集团智能服务事业部旗下的面向电商领域的服务机器人。阿里小蜜所在的智能服务事业部,致力于以体验为核心,通过人工智能算法,以数据和技术为驱动,提升用户的服务体验以及解决问题的效率。目前围绕着智能对话、智能辅助、智能决策、智能管理4大核心体系通过人工智能技术全面赋能客户,引领服务的智能化升级。在2017年,阿里小蜜家族产品通过自然语言处理、知识图谱、深度学习等技术引领阿里小蜜从阿里走向行业,从中国走向国际,围绕这商家生态圈及阿里云生态圈,赋能数百万商家和全球中小企业,覆盖了英语、俄语、葡萄牙语、西班牙语、印尼语、泰语等多个国家和地区。
阿里小蜜吉祥物
在过去的一年中,阿里小蜜团队已经在文本匹配及迁移学习两个方向上做了很多工作,不仅在工业界落地,真实服务消费者,而且在一些重要的国际会议上,如ACL、WSDM、CIKM等,发表了多篇论文。例如在2018的WSDM上,我们提出了一个文本匹配模型的迁移学习框架,尝试解决了同种语言下的文本匹配模型的冷启动问题。
为什么会选择“跨语言短文本匹配算法”相关赛题?
随着人工智能时代的到来,大数据和算法成为了互联网企业发展的两个重要驱动力。作为人工智能重要的落地场景之一,以聊天机器人出现的智能服务系统,为企业减少大量劳动力的同时,也对提升用户体验具有重要意义。因此在过去几年中,聊天机器人成为了商业公司重金投入的热点。从微软小冰、亚马逊的Echo等到各种垂直行业的客服机器人,聊天机器人蓬勃发展,形态各异,又不乏共性。阿里小蜜正是阿里巴巴集团围绕电商领域构建的超级个人助理,不仅可以解决用户的各种信息咨询类问题,也可以帮助用户挑选商品,为用户订购机票等任务。
根据应答产生的方式,聊天机器人可以分为检索式、生成式或者混合式。在检索式的聊天机器人中,文本匹配模型是至关重要的一个模块,决定了聊天机器人解决用户问题的能力。文本匹配模型接受一个用户的问题,在FAQ数据集上寻找一个匹配的问答对,并将人工编写的答案回传给用户。为了构建一个文本匹配模型,不仅需要人工收集一个称之为FAQ(Frequently Asked Questions)的数据集,同时也需要人工标注一批用户问题与FAQ中问答对的匹配语料,用于训练模型。然而这种情况在一些小语种中不太现实,一方面缺乏相应的标注语料,另一方面了解小语种的NLP研发人员很稀少,这两个方面都限制了聊天机器人的研发。
阿里巴巴集团在去年开始明显加快了国际化的进程,不仅通过速卖通(AliExpress)覆盖了俄罗斯、西班牙等120多个国家和地区,而且还在不同地区收购或投资了当地的电商企业,比如收购了东南亚地区最大的电商Lazada,在印度地区投资了Paytm等。
未来,阿里巴巴集团将为20亿用户提供服务。在这样一个背景下,作为阿里集团内最大的服务团队,在服务好国内消费者的前提下,也需要思考如何服务好国外的消费者,其中就包括使用技术手段解决消费者的服务咨询类问题。然而,现有的技术手段需要大量的标注数据,以帮助深度学习或机器学习系统训练出有效的模型。但一些小语种(如印尼语、泰语、菲律宾语等)不仅缺乏大规模的标注数据,而且相应的算法研发人员也相当匮乏。如何为使用这些语种的国家和地区的消费者提供高质量的服务,将是对算法人员很大的挑战。因此我们设计了这种一个题目,希望将数据资源丰富的语言理解能力迁移到资源匮乏的语言上。
期待你的参与
通过本次比赛,我们不仅希望为学术界抛砖引玉,贡献一个在真实场景中需要面对解决的问题,而且希望有更多的优秀选手参与比赛,共同帮助我们提升聊天机器人的能力。未来,对于消费者,他们可以自由地选择语言,不管是使用官方语言(如英语)还是使用日常用语(如印尼语等小语种),都将得到高质量的服务。
在这项比赛中,为了使参赛人员关注于语言本身的特性及迁移能力上,我们做了一些限制,比如不要过分关注于机器翻译技术等。这些限制,本质上是为了回归问题本身,而不是利用外部的能力。在此之外,参赛人员可以发挥想象力和创造力,提出各种模型和解决方案。
本次大赛将向全社会开放,我们期待来自高等院校、科研单位、互联网企业等算法工程师,在这个舞台大展身手。
点击文末“阅读原文”,进入阿里天池平台了解大赛详情、报名。
你可能还喜欢
点击下方图片即可阅读
关注「阿里技术」
把握前沿技术脉搏