Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

会员服务 ·

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

2018 年 7 月 29 日 量子位

夏乙发自凹非寺
量子位报道 | 公众号 QbitAI

——猫戴着什么？

——帽子。

——天气怎么样？

——下雨。

——披萨上面是什么？

——蘑菇。

看图回答这些问题，对我们人类来说再简单不过了，但是要让AI熟练掌握这项技能，还需要探索。

Facebook刚刚为这个领域的探索者们，开源了一个模块化视觉问答框架：Pythia。

事情还要从在弗吉尼亚理工大学和乔治亚理工大学主办的视觉问答（Visual Question Ansering）比赛VQA Challenge说起。

比赛上，Facebook AI研究院（FAIR）队伍，A-STAR拿下了冠军。总成绩72.41分，排名第一，在是否（上图的Yes/No）、其他（Other）两类问题上也排名第一，分别拿下了87.7和63.95分，就是数学（Number）成绩差了点，51.51分，不及格，排在第六。

其他的参赛者，回答“是/否”都答得还算不错，回答数字都不及格，而答案五花八门的其他问题，也在及格线上下徘徊。

夺冠的FAIR观察发现，目前的视觉问答（VQA）模型，无外乎这样几个模块：问题编码、图像特征提取、答案空间分类。

于是，他们就想针对VQA领域，打造一个简单的模块化的模型研发平台，说不定还能顺便用在看图对话上。

建造平台的第一步，就是开源了A-STAR参赛所用模型的基础框架：Pythia，目前版本号v0.1。

为Pythia打下基础的，是2017年VQA Challenge冠军，Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up，指的是这个模型以ResNet-101为基干网络，用了Visual Genome数据集预训练的Faster-RCNN，用自底向上的注意力机制来提取图像特征。

而Top-Down，指的是根据问题（当前任务）来计算图像区域上的注意力分布。

在这个模型的基础上，FAIR团队做了一些调整。

比如说，将up-down模型里的双曲正切激活函数换成权重标准化+ReLU，用Adamax来优化模型，增大学习率。又比如，把bottom-up模型里的目标检测模型换成Detectron里的FPN，还对用到的数据集：Visual Genome、Visual Dialog等都做了数据扩增。

每一个模块的优化，都带来了模型性能的提升。

BTW，Facebook参赛队伍和框架的名字都别有深意。

队伍的名字——A-STAR，跟星星没什么关系，它是意思是能看、说话、行动、推理的智能体（Agents that See, Talk, Act, and Reason）

框架名字Pythia，也就是希腊神话中的皮提亚，德尔菲阿波罗神庙中的女祭司。女祭司的一项重要工作嘛，就是回答问题。

如果你也想搭一个会看图回答问题的模型，收好这份paper：

Pythia v0.1: the Winning Entry to the VQA Challenge 2018
*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh
https://arxiv.org/pdf/1807.09956.pdf

以及开源代码：

https://github.com/facebookresearch/pythia

为它打下基础的Bottom-Up and Top-Down Attention：

https://github.com/hengyuan-hu/bottom-up-attention-vqa

— 完 —

加入社群

量子位AI社群18群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot8入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot8，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

实习生招聘

量子位正在招募活动运营实习生，策划执行AI明星公司CEO、高管等参与的线上/线下活动，有机会与AI行业大牛直接交流。工作地点在北京中关村。简历欢迎投递到quxin@qbitai.com

具体细节，请在量子位公众号(QbitAI)对话界面，回复“实习生”三个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

42+阅读 · 2019年10月23日

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

专知会员服务

18+阅读 · 2019年6月17日

牛逼！深度学习又添新框架，来自Facebook 【Pythia】

机器学习算法与Python学习

7+阅读 · 2019年6月25日

百度PaddlePaddle开源视频分类模型Attention Cluster，曾夺挑战赛冠军

机器之心

6+阅读 · 2019年3月15日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

GAN生成式对抗网络

50+阅读 · 2019年3月13日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

2017 VQA Challenge 第一名技术报告

PaperWeekly

7+阅读 · 2017年9月26日

Adversarial TableQA: Attention Supervision for Question Answering on Tables

Arxiv

4+阅读 · 2018年10月18日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

VIP会员