牛逼!深度学习又添新框架,来自Facebook 【Pythia】

2019 年 6 月 25 日 机器学习算法与Python学习

项目:Pythia

领域:视觉 & 语言

公司:Facebook

GitHub:https://github.com/facebookresearch/pythia

官方文档:https://learnpythia.readthedocs.io/en/latest/

示例:https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR

简介:Pythia 是一种模块化的即插即用深度学习框架,数据科学家和机器学习开发者能快速构建、复现和构建基准模型。支持视觉和语言领域的多任务处理。

特点:

  • 支持分布式训练及多种数据集(包括对多种数据集内置的支持,有 VQA、VizWiz、TextVQA 和 VisualDialog);

  • 支持自定义的损失函数、度量标准、调度和最优化器等;

  • 提供了常用的视觉和语言层级模块;

  • 内建了很多语料库,包括 VQA、VizWiz、TextVQA 和 VisualDialog

  • SoTA 视觉和语言模型的推理实现,包括 LoRRA(VQA 和 TextVQA 的 SoTA)、Pythia 模型(VQA 2018 挑战赛冠军)和 BAN;

  • 支持多任务,允许在多个数据集上同时训练;

安装:

1# Clone Pythia repository
2git clone https://github.com/facebookresearch/pythia ~/pythia
3
4# Install dependencies and setup
5cd ~/pythia
6python setup.py develop

使用:

获取数据: 目前支持特征和 ImDB

1cd ~/pythia;
2# Create data folder
3mkdir -p data && cd data;
4
5# Download and extract the features
6wget https://dl.fbaipublicfiles.com/pythia/features/open_images.tar.gz
7tar xf open_images.tar.gz
8
9# Get vocabularies
10wget http://dl.fbaipublicfiles.com/pythia/data/vocab.tar.gz
11tar xf vocab.tar.gz
12
13# Download detectron weights required by some models
14wget http://dl.fbaipublicfiles.com/pythia/data/detectron_weights.tar.gz
15tar xf detectron_weights.tar.gz
16
17# Download and extract ImDB
18mkdir -p imdb && cd imdb
19wget https://dl.fbaipublicfiles.com/pythia/data/imdb/textvqa_0.5.tar.gz
20tar xf textvqa_0.5.tar.gz

训练:

1cd ~/pythia;
2python tools/run.py --tasks vqa --datasets textvqa --model lorra --config **
3configs/vqa/textvqa/lorra.yml

推断:

1cd ~/pythia/data
2mkdir -p models && cd models;
3
4wget https://dl.fbaipublicfiles.com/pythia/pretrained_models/textvqa/lorra_best.pthcd ../..
5
6python tools/run.py --tasks vqa --datasets textvqa --model lorra --config **
7configs/vqa/textvqa/lorra.yml --resume_file data/models/lorra_best.pth **
8--evalai_inference 1 --run_type inference


推荐阅读

有个程序猿很忧桑:一个命令rm -rf/ ,他把整个公司删没了...

10 个可以快速用Python进行数据分析的小技巧

准备了2个月,终于拿到了推荐算法岗的offer

8 个常用的 Python 爬虫技巧,分分钟提高效率!!

最新QS世界大学排名揭榜!清华超越耶鲁、哥大


喜欢就点击“在看”吧!

登录查看更多
7

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
2018年度最牛逼的30个机器学习项目!
大数据技术
3+阅读 · 2018年12月14日
深度学习开发必备开源框架
九章算法
12+阅读 · 2018年5月30日
用深度学习keras的cnn做图像识别分类,准确率达97%
数据挖掘入门与实战
4+阅读 · 2017年12月17日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
单线程cpu1小时收敛的赛车自动驾驶训练
CreateAMind
5+阅读 · 2017年7月24日
Arxiv
3+阅读 · 2018年3月29日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
2018年度最牛逼的30个机器学习项目!
大数据技术
3+阅读 · 2018年12月14日
深度学习开发必备开源框架
九章算法
12+阅读 · 2018年5月30日
用深度学习keras的cnn做图像识别分类,准确率达97%
数据挖掘入门与实战
4+阅读 · 2017年12月17日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
单线程cpu1小时收敛的赛车自动驾驶训练
CreateAMind
5+阅读 · 2017年7月24日
相关论文
Arxiv
3+阅读 · 2018年3月29日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
9+阅读 · 2016年10月27日
Top
微信扫码咨询专知VIP会员