Tsetlin Machine (TM) is an interpretable pattern recognition algorithm based on propositional logic, which has demonstrated competitive performance in many Natural Language Processing (NLP) tasks, including sentiment analysis, text classification, and Word Sense Disambiguation. To obtain human-level interpretability, legacy TM employs Boolean input features such as bag-of-words (BOW). However, the BOW representation makes it difficult to use any pre-trained information, for instance, word2vec and GloVe word representations. This restriction has constrained the performance of TM compared to deep neural networks (DNNs) in NLP. To reduce the performance gap, in this paper, we propose a novel way of using pre-trained word representations for TM. The approach significantly enhances the performance and interpretability of TM. We achieve this by extracting semantically related words from pre-trained word representations as input features to the TM. Our experiments show that the accuracy of the proposed approach is significantly higher than the previous BOW-based TM, reaching the level of DNN-based models.


翻译:Tsetlin Machine (TM) 是一种基于命题逻辑的可解释模式识别算法,它在许多自然语言处理任务(包括情绪分析、文本分类和Word Sense Dismenduation)中表现出了竞争性的性能,包括情绪分析、文本分类和Word Sense Dismenduation。为了获得人的可解释性,遗留的TM 采用了词包(BOW)等布尔输入特征。然而,BOW的表示方式使得很难使用任何预先训练过的信息,例如Word2vec和GloVe字表达方式。这一限制限制了TM 的性能,而NLP 的深神经网络(DNN) 。为了缩小性能差距,我们在本文件中提出了一种新的方法,即为TM 使用预先训练过的字表达方式。这个方法极大地提高了TM的性能和可解释性。我们通过将预先训练过的字表作为TM的输入特征来做到这一点。我们的实验表明,拟议方法的准确性大大高于先前的以BOW为基础的TM,达到DNN模型的水平。

0
下载
关闭预览

相关内容

经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
202+阅读 · 2020年2月24日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Word Embedding List|ACL 2020 词嵌入长文汇总及分类
PaperWeekly
3+阅读 · 2020年5月30日
已删除
inpluslab
8+阅读 · 2019年10月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
5+阅读 · 2020年3月26日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关VIP内容
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
202+阅读 · 2020年2月24日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Top
微信扫码咨询专知VIP会员