【GitHub热门开源】构建NLP深度学习模型其实就是搭积木

会员服务 ·

【GitHub热门开源】构建NLP深度学习模型其实就是搭积木

2019 年 5 月 11 日 新智元

新智元推荐

来源：PaperWeekly(ID：paperweekly)

整理编辑：三石

【新智元导读】近日，为了提高NLP深度学习模型过程中的效率，微软亚洲互联网工程院NLP团队重磅推出开源项目NeuronBlocks，使得上述复杂的任务像搭积木一样简单！

其实，构建NLP深度学习模型就是搭积木。

在构建自然语言理解深度学习模型过程中，研究人员或者工程师们经常需要在编程细节和代码调试上花费大量精力，而不是专注于模型架构设计与参数调整。

为了提升构建深度模型的效率，微软亚洲互联网工程院自然语言理解团队 (STCA NLP Group, Microsoft) 推出了开源项目NeuronBlocks——自然语言处理任务的模块化深度学习建模工具包。

论文地址：https://arxiv.org/abs/1904.09535

项目地址：https://github.com/Microsoft/NeuronBlocks

NeuronBlocks将常用的神经网络层封装为标准模块，通过配置简单的配置文件，就可以轻松构建复杂的深度神经网络模型。与此同时，工具包还提供了一系列针对常见NLP 任务的经典模型。NeuronBlocks能使工程师们在几秒钟内快速构建和训练各种自然语言处理模型。工具包的可扩展性很强，支持快速加入新的神经元模块用于新的网络模型的构建，最大程度地避免重复的代码工作。

目前工具包支持的任务包括：句子分类（二/多分类），文本匹配，序列标注，阅读理解，基于知识蒸馏的模型压缩，等等。

NeuronBlocks设计

NeuronBlocks是基于PyTorch的NLP深度学习建模工具包，可以帮助研究员或者工程师们快速构建自然语言理解任务的深度神经网络模型。该工具包的主要目标是将NLP深度神经网络模型构建的开发成本降到最低，包括模型训练阶段和推断阶段。NeuronBlocks整体框架如下图所示，包括Block Zoo和Model Zoo两个重要组件。

Block Zoo将常用的神经网络层抽象并封装为可重用的标准模块。这些模块将被用于构建各种针对不同自然语言理解任务的深度学习模型。工具包目前支持的标准神经网络模块包括：词嵌入、CNN、LSTM/GPU、Transformer和各种Attention等。

Model Zoo提供大量预构建好的深度神经网络模型，涵盖了常见的NLP任务。这些模型以JSON配置文件的形式呈现，用户可以通过简单修改Model Zoo中的示例模型配置，即可将其应用于自己的任务中。此外，工具包支持Linux和Windows操作系统、CPU与GPU处理器、以及PAI等GPU调度平台。

快速开始

NeuronBlocks目前支持：Python 3.6, PyTorch 0.4.1，Linux/Windows，GPU/CPU。

1、获取源码：

git clone https://github.com/Microsoft/NeuronBlocks

2、安装依赖包：

pip install -r requirements.txt
pip install torch==0.4.1

3、运行示例模型：

# 训练
cd PROJECT_ROOT
python train.py --conf_path=model_zoo/demo/conf.json

# 测试
python test.py --conf_path=model_zoo/demo/conf.json

# 预测
python predict.py --conf_path=model_zoo/demo/conf.json

NeuronBlocks工作流程

用户可以选择Model Zoo中的示例模型（JSON配置文件）开启模型训练，或者利用Block Zoo中的标准神经网络模块自由构建新的模型架构，就像玩乐高积木一样。