TensorFlow Text — TF官方文本处理库,兼容动态图(Eager)模式

【导读】TensorFlow、PyTorch等深度学习框架解决了快速构建深度网络的问题,然而在实际开发中,这些框架对于数据处理的支持仍在发展中。TF官方在Github推出TF Text,为TF2.0提供了较好的文本处理功能,且兼容动态图模式。


在实际NLP任务中,花在数据处理上的时间可能是构建深度模型时间的十倍。在深度学习工程中,数据处理对模型的正确性、性能、可扩展性、接口友好性等有着巨大的影响。例如,如果不能保证训练和预测时分词的一致性,模型的预测功能将变得不可控。


TF官方的Github项目tensorflow/text (TF Text)提供了一系列和文本相关的类和操作,可以为文本和序列模型提供规范的预处理等功能。使用TF Text有很多好处,例如TF Text提供的操作是在TensorFlow的计算图中完成的,用户不需要关注上述的训练和预测的一致性,并且不需要自己管理预处理脚本。例如,下面的代码是一个基于TF Text进行分词的示例:

docs = tf.data.Dataset.from_tensor_slices([['Never tell me the odds.'],
["It's a trap!"]])
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
iterator = tokenized_docs.make_one_shot_iterator()
print(iterator.get_next().to_list())
print(iterator.get_next().to_list())


运行结果如下:

[['Never', 'tell', 'me', 'the', 'odds.']]
[["It's", 'a', 'trap!']]


关于TF Text的具体用法可以参考官方Github链接:

  • https://github.com/tensorflow/text


-END-

专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!550+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

展开全文
Top
微信扫码咨询专知VIP会员