【下载】PyTorch实现的神经网络翻译框架——机器翻译工具包 nmtpytorch

2017 年 12 月 20 日 专知

【导读】机器翻译是自然语言处理的重要组成部分，其目的是使用计算机自动将文本翻译成其他语言的形式。近年来，端到端的神经机器翻译发展迅速，已经成为机器翻译系统的新主流。近日，法国勒芒大学发布了基于pytorch的机器翻译工具包 nmtpytorch，为业内人士的研究和开发工作提供了便利。

Neural Machine Translation Framework in PyTorch

nmtpytorch是nmtpy的一个PyTorch分支，而起初是dl4mt-tutorial的一个分支。它基于序列到序列的框架（sequence-to-sequence framework）的神经网络翻译模型。

Nmtpy：https://github.com/lium-lst/nmtpy

dl4mt-tutorial：https://github.com/nyu-dl/dl4mt-tutorial

nmtpytorch的核心部分依赖numpy, torch 和 tqdm。Nmtpytorch依赖Python 3.6，目前并不支持Python 2.x。

安装

我们将subword-nmt和METEOR作为子模块，以便根据需要进行跟踪更新。另外，METEOR v1.5 JAR、multi-bleu.perl以及COCO评价工具cocoeval都直接包含在源文件中。

运行以下命令以获取包含这些子模块的代码仓库：

git clone --recursive https://github.com/lium-lst/nmtpytorch.git

安装develop模块：

python setup.py develop

使用案例

用一个英文-德文的Multi30k示例，来演示NMT的配置，其中涵盖了NMT中[train]和[model]的具体选项配置。

当你为你的数据集创建一个配置文件之后，你可以使用下面的命令开始训练：

nmtpy train -C <config file>

可以通过命令行来覆盖所有的配置选项：

nmtpy train -C <config file> train.<opt>:<val> model.<opt>:<val> ...

版本注释

安装版本v1.0（18/12/2017）

最初的版本旨在（尽可能）与最新的nmtpy兼容，并做出一些重要的变化。

新的TensorBoard支持

如果你想监控训练过程，你可以先安装tensorboard-pytorch。请注意，你还需要安装Tensorflow中的实际TensorBoard服务器以启动可视化服务器。

tensorboard-pytorch：https://github.com/lanpa/tensorboard-pytorch

当依赖项安装完成之后，你需要在实验的配置文件中为TensorBoard定义一个日志目录，以记录TensorBoard日志。记录频率与终端记录频率相同，其由train.disp_freq选项定义（默认为30个批次）。

[train]
..
tensorboard_dir: ~/tb_dir

一个统一的命令行接口

我们提供了一个统一的命令行接口——nmtpy，它实现了三个子命令包括：训练，翻译和重新开始。而不是先前的使用多个命令来实现训练，重新评分，翻译等。

nmtpy train

usage: nmtpy train [-h] -C CONFIG [-s SUFFIX] [overrides [overrides ...]]

positional arguments:
  overrides             (section).key:value overrides for config

optional arguments:
  -h, --help            show this help message and exit
  -C CONFIG, --config CONFIG
                        Experiment configuration file
  -s SUFFIX, --suffix SUFFIX
                        Optional experiment suffix.

nmtpy translate

usage: nmtpy translate [-h] [-n] -s SPLITS [-b BATCH_SIZE] [-k BEAM_SIZE]
                       [-m MAX_LEN] [-p] [-u] [-d DEVICE] [-e]
                       models [models ...]

positional arguments:
  models                Saved model/checkpoint file(s)

optional arguments:
  -h, --help            show this help message and exit
  -n, --disable-filters
                        Disable text filters given in config.
  -s SPLITS, --splits SPLITS
                        Comma separated splits to translate
  -b BATCH_SIZE, --batch-size BATCH_SIZE
                        Batch size for beam-search
  -k BEAM_SIZE, --beam-size BEAM_SIZE
                        Beam size for beam-search
  -m MAX_LEN, --max-len MAX_LEN
                        Maximum sequence length
  -p, --avoid-double    Suppress previous token probs
  -u, --avoid-unk       Suppress <unk> generation
  -d DEVICE, --device DEVICE
                        Select GPU device(s)
  -e, --ensemble        Enable ensembling for multiple models.