AI challenger又有数据集福利!
2017年,AI challenger全球AI挑战赛,吸引了来自65个国家的8892支团队参赛。
今日,2018年新赛季预热开始。3月22日,AI challenger宣布发起零样本学习(zero-shot learning)竞赛。
同时,推出针对零样本学习的大规模图像属性数据集,包含78,017张图片、230个类别、359种属性。与目前主流的用于零样本学习的数据集相比,属性上更丰富、类别重合度低。
零样本学习是当前最具挑战的AI识别方法之一。主要使用已知类别数据集训练模型,然后将该模型用于识别未知类别的样本。
一般在图像的分类识别任务中,训练阶段和测试阶段样本的类别都是相同的,但每次为了识别不同的类别样本都需要在训练集中加入这种样本数据,如果新样本的数量较少或者新样本类别数目过大,都会加大数据集的制作成本,零样本学习的方法便能很好的解决这个问题。
本质上,零样本学习是迁移学习的方法之一。在识别未知类别样本的过程中,实现从已知类别域到未知类别域的知识迁移。
而在迁移学习中,可传递的中间知识起着关键的作用。这些中间知识应该具有共享性、灵活性和可解释性,只有通过这些知识才能够进行完美的知识迁移。
其中,被不同类别的物体所共享的数据被标记为属性。属性也是判断零样本数据集的核心维度之一。
零样本问题在机器学习中并非热门,直到2008 年Larochelle 等人针对字符领域中的分类问题提出了零样本学习(zero shot learning)方法,并且识别准确率达到了60%,才真正打开零样本学习的关注度。
目前比较主流的方法是Lampert 提出的直接属性预测模型(DAP)和间接属性预测模型(IAP)。
如下图所示,这两种方法在零样本分类研究中受到了很高的重视,这两种模型中属性训练都是在传统特征提取的基础上的进行的。
首先使用颜色直方图、局部自相似直方图、SIFT 和PHOG 等6 种方法来提取样本图像的底层特征,这几种特征包含了图像的颜色、形状和纹理等方面,所以通过这种特征提取方法得到的特征信息可以良好的表达图像中的信息,因此这几种图像特征不仅适用与线性分类器,而且在非线性分类器中也能达到良好的表现。
通过上述的特征提取方法得到样本图像的特征信息后,将提取到的特征信息用于属性分类器的训练,然后将训练得出的模型用于属性的预测,最后根据自身模型结构采用相应的概率方法推算测试样本的类别。将DAP 方法分别用到AWA 和SUN 数据集中得到略高于40%和50%的准确率,可以看出在零样本图像分类上已经有一定的效果,但识别精度上还有待提高。
零样本学习目前潜在的应用场景,有5种可以列举。
在智能体训练中,“零样本学习”首先让智能体(Agent)对老师给出的指令进行语义理解,根据理解出的命令做出行为。
其次让虚拟老师对此行为给出正面或负面反馈,如果为正面反馈,智能体(Agent)能做出正确动作,就能收到奖赏,如果失败,就会受到惩罚。
在收到奖赏的情况下,智能体(Agent)这样就能慢慢理解语言含义,并学会正确使用语言。
此后,如果遇到不熟悉的命令,智能体(Agent)就能够推断出语言的正确含义,做出适当行为,从而满足预期目标。
例如,识别模型在“马”、“牛”等类别上训练过,因此模型能够准确地识别“马”、“牛”的图片。当模型遇到“象”这个新类别,由于从未见过,模型无法作出判断。
传统解决方案是收集大量“象”的图片,与原数据集一起重新训练。这种解决方案的代价高、速度慢。
然而,人类能够从描述性知识中快速学习一个新概念。例如,一个儿童即使没有见过“象”,当提供他文本描述“象是一种的大型食草类动物,有长鼻和长牙”。儿童能够根据描述快速学会“象”这一新类别,并能在第一次见到“象”时识别出来。
零样本学习与之类似,在没有任何训练样本的情况下,借助辅助知识(如属性、词向量、文本描述等)学习一些从未见过的新概念(类别)。
最典型的是进行三种语言之间的翻译,按照传统的方法需要训练至少六个网络,双向的话需要12个网络。
但如果通过零样本学习的方法,训练英语→特征空间→日语,韩语→特征空间→英语这两个网络,就可以自动学会韩语→特征空间→日语的翻译过程。
翻译模型的训练效率会大大提高,对于那些没有专门对照译本的小语种来说,也是福音。
近年来,对抗网络GAN被用于图像合成,取得了以假乱真的效果。但传统图像合成仅能合成见过的类别的图像。
零样本图像合成希望模型能够合成从未见过的类别的图像。目前已有一些算法通过条件GAN网络实现了零样本图像合成。
传统图像哈希算法利用一些训练样本来学习针对某些类别的哈希算法。但这些学习到的哈希算法无法用于新类别。零样本图像哈希,希望在已知类别上学到哈希算法能够运用到新的未知类别上。
目前,一些基于属性的零样本哈希算法已经被提出。
怎么样,是不是已经对本次零样本学习竞赛跃跃欲试了?
量子位了解到,此次AI challenger的零样本学习(zero-shot learning)竞赛,将于本日(3月22日)正式开启,4月23日截止提交。1-3人皆可组队参与比赛。
赛程赛制方面,将采用双周赛的方式,从3月22日至4月23日期间,组委会将举办2次双周赛。双周赛的排名将以4月8日、4月22日当晚23:59:59的成绩榜单排名为准,届时会邮件通知所有参赛者,双周奖的奖金和最终奖金一并发放。
冠军:30,000人民币,颁发获奖证书
亚军:10,000人民币,颁发获奖证书
季军:3,000人民币,颁发获奖证书
双周冠军:3,000人民币
双周亚军:2,000人民币
双周季军:1,000人民币
竞赛奖励:提及金额均为税前金额
附:数据集下载地址:https://challenger.ai/datasets
— 完 —
加入社群
量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态