Tensorflow实战系列：手把手教你使用LSTM进行文本分类（附完整代码）

2018 年 3 月 31 日 专知 Hujun

【导读】专知小组计划近期推出Tensorflow实战系列，计划教大家手把手实战各项子任务。本教程旨在手把手教大家使用Tensorflow构建LSTM进行文本分类。教程使用了伪造的文本数据进行情感分类，有正面情感数据和负面情感数据。并且教程代码包含了配置信息，将数据处理为LSTM的输入格式，以及定义和训练相关代码，因此希望在日常项目中使用Tensorflow的朋友可以参考这篇教程。

专知公众号以前连载关于Tensorflow1.4.0的系列教程：

最新TensorFlow1.4.0教程完整版

Tensorflow实战系列：手把手教你使用CNN进行图像分类（附完整代码）

▌简介

本文主要内容包括

• 如何将文本处理为Tensorflow LSTM的输入

• 如何定义LSTM

• 用训练好的LSTM进行文本分类

虽然本文描述的是文本分类任务，但对于一些简单的信号分类依然适用。对于信号分类，有一点区别需要注意。本文代码的文本数据输入是2维数组（样本数 x 句子长度），在进入LSTM之前，会根据第二个维度（每个词的索引）将其替换为词向量，因此LSTM的输入是3维向量（样本数 x 句子长度 x 词向量维度）。对于一般的信号数据，输入RNN的数据为[样本数，时序长度，特征维度]。但一些拿到的信号数据格式可能是[样本数，时序长度]，这是因为特征维度为1，按照2维数组简写了。在将这种特征输入RNN之前，要加上一个维度，对其输入格式。

另外，为了简化教程，这里没有做训练和测试数据集分离了。

▌代码

导入相关库

#coding=utf-8
import tensorflow as tf
from tensorflow.contrib import learn
import numpy as np
from tensorflow.python.ops.rnn import static_rnn
from tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell

数据

这里用伪造的文本数据进行情感分类，有正面情感数据和负面情感数据。

# 数据
positive_texts = [
    "我 今天 很 高兴",
    "我 很 开心",
    "他 很 高兴",
    "他 很 开心"
]
negative_texts = [
    "我 不 高兴",
    "我 不 开心",
    "他 今天 不 高兴",
    "他 不 开心"
]

label_name_dict = {
    0: "正面情感",
    1: "负面情感"
}

配置信息

词向量维度为50。

▌配置信息

embedding_size = 50
num_classes = 2
将文本和label数值化
# 将文本和label数值化
all_texts = positive_texts + negative_texts
labels = [0] * len(positive_texts) + [1] * len(negative_texts)

max_document_length = 4
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

datas = np.array(list(vocab_processor.fit_transform(all_texts)))
vocab_size = len(vocab_processor.vocabulary_)

定义placeholder(容器)，存放输入输出

如果不是文本，而是自己定义的数据（如信号数据），可能需要定义3维的容器。

# 容器，存放输入输出
datas_placeholder = tf.placeholder(tf.int32, [None, max_document_length])
labels_placeholder = tf.placeholder(tf.int32, [None])

词向量处理

构建一个随机的词向量矩阵，它会随着训练而获得适合任务的词向量。

# 词向量表
embeddings = tf.get_variable("embeddings", [vocab_size, embedding_size], initializer=tf.truncated_normal_initializer)

# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]
embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)

▌将数据处理为LSTM的输入格式

# 转换为LSTM的输入格式，要求是数组，数组的每个元素代表某个时间戳一个Batch的数据
rnn_input = tf.unstack(embedded, max_document_length, axis=1)

▌定义LSTM

定义LSTM需要用到两个组件BasicLSTMCell和static_rnn。

# 定义LSTM
lstm_cell = BasicLSTMCell(20, forget_bias=1.0)
rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)

#利用LSTM最后的输出进行预测
logits = tf.layers.dense(rnn_outputs[-1], num_classes)

predicted_labels = tf.argmax(logits, axis=1)

▌定义损失和优化器

# 定义损失和优化器
losses= tf.nn.softmax_cross_entropy_with_logits(
    labels=tf.one_hot(labels_placeholder, num_classes),
    logits=logits
)

mean_loss = tf.reduce_mean(losses)
optimizer = tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)

▌执行

with tf.Session() as sess:
    # 初始化变量
    sess.run(tf.global_variables_initializer())

▌训练

# 定义要填充的数据
feed_dict = {
    datas_placeholder: datas,
    labels_placeholder: labels
}

print("开始训练")
for step in range(100):
    _, mean_loss_val = sess.run([optimizer, mean_loss], feed_dict=feed_dict)

    if step % 10 == 0:
        print("step = {}\tmean loss = {}".format(step, mean_loss_val))

▌预测

print("训练结束，进行预测")
predicted_labels_val = sess.run(predicted_labels, feed_dict=feed_dict)
for i, text in enumerate(all_texts):
    label = predicted_labels_val[i]
    label_name = label_name_dict[label]
    print("{} => {}".format(text, label_name))

感兴趣的同学可以把上面代码在自己本地尝试运行一下，欢迎留言探讨！

-END-

专 · 知

人工智能领域主题知识资料查看获取：【专知荟萃】人工智能领域26个主题知识资料全集（入门/进阶/论文/综述/视频/专家等）

同时欢迎各位用户进行专知投稿，详情请点击：

【诚邀】专知诚挚邀请各位专业者加入AI创作者计划！了解使用专知！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请扫一扫如下二维码关注我们的公众号，获取人工智能的专业知识！

请加专知小助手微信（Rancho_Fang），加入专知主题人工智能群交流！加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

点击“阅读原文”，使用专知！

登录查看更多

相关内容

长短期记忆网络

关注 120

长短期记忆网络(LSTM)是一种用于深度学习领域的人工回归神经网络(RNN)结构。与标准的前馈神经网络不同，LSTM具有反馈连接。它不仅可以处理单个数据点(如图像)，还可以处理整个数据序列(如语音或视频)。例如，LSTM适用于未分段、连接的手写识别、语音识别、网络流量或IDSs(入侵检测系统)中的异常检测等任务。

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日