PyTorch-NLP 是用于自然语言处理的开源 Python 库,它构建于最新的研究之上,可以帮助开发者快速开发原型。PyTorch 带有预训练嵌入(pre-trained embeddings)、采样器、数据集加载器、神经网络模型和文本编码器。
详细信息可访问 PyTorch-NLP 官方网站:
https://pytorchnlp.readthedocs.io/en/latest/
Github 链接:
https://github.com/PetrochukM/PyTorch-NLP
安装
请先安装 Python 3.5+ 和 PyTorch 0.2.0 及以上版本,然后用 pip 安装 PyTorch-NLP:
pip install pytorch-nlp
可选安装
如果您想使用SpaCy <http://spacy.io/> 中的英文标记器,则需要安装 SpaCy 并下载其英文模型:
pip install spacy
python -m spacy download en_core_web_sm
或者,您可能需要使用 NLTK <http://nltk.org/>的 Moses tokenizer。您必须安装NLTK 并下载所需的数据:
pip install nltk
python -m nltk.downloader perluniprops nonbreaking_prefixes
用法
PyTorch-NLP 的设计思想直观并且简单易用:
加载 FastText,Facebook 的快速文本分类器
from torchnlp.embeddings import FastText
vectors = FastText()
vectors['hello'] # [torch.FloatTensor of size 100]
加载数据集,比如 IMBD
from torchnlp.datasets import imdb_dataset
train = imdb_dataset(train=True)
train[0] # {'text': 'For a movie that gets..', 'sentiment': 'pos'}
用 torchnlp.metrics 计算 BLEU 分数:
from torchnlp.metrics import get_moses_multi_bleu
hypotheses = ["The brown fox jumps over the dog 笑"]
references = ["The quick brown fox jumps over the lazy dog 笑"]
get_moses_multi_bleu(hypotheses, references, lowercase=True) # 47.9
【限时拼团】
NLP 工程师入门实践班
三大模块,五大应用,知识点全覆盖;
海外博士讲师,丰富项目分享经验;
理论 + 实践,带你实战典型行业应用;
专业答疑社群,结交志同道合伙伴。
▼▼▼
新人福利
关注 AI 研习社(okweiwu),回复 1 领取
【超过 1000G 神经网络 / AI / 大数据,教程,论文】
如何在NLP领域干成第一件事?
▼▼▼