This work originates from the observation that today's state-of-the-art statistical language models are impressive not only for their performance, but also - and quite crucially - because they are built entirely from correlations in unstructured text data. The latter observation prompts a fundamental question that lies at the heart of this paper: What mathematical structure exists in unstructured text data? We put forth enriched category theory as a natural answer. We show that sequences of symbols from a finite alphabet, such as those found in a corpus of text, form a category enriched over probabilities. We then address a second fundamental question: How can this information be stored and modeled in a way that preserves the categorical structure? We answer this by constructing a functor from our enriched category of text to a particular enriched category of reduced density operators. The latter leverages the Loewner order on positive semidefinite operators, which can further be interpreted as a toy example of entailment.


翻译:这项工作源于这样一种观察,即当今最先进的统计语言模型不仅因其性能而给人留下深刻印象,而且非常关键的是,因为它们完全来自非结构化文本数据中的相关性。后一观察引出了本文核心的一个根本问题:非结构化文本数据中存在哪些数学结构?我们以自然答案的形式提出了丰富的分类理论。我们显示,从一个限定字母(如在文本中发现的字母)中得出的符号序列构成了一个富于概率的类别。我们接着谈到第二个基本问题:如何储存和建模这些信息,以维护绝对结构?我们通过从我们丰富文本类别中构建一个给某个特定精密密度减低的操作员类别的配方来回答这个问题。后者将Lewner命令用于正半成型操作员,这可以进一步被解释为隐含的微小例子。

0
下载
关闭预览

相关内容

【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
已删除
将门创投
5+阅读 · 2017年8月15日
Arxiv
0+阅读 · 2022年1月31日
Measure Estimation in the Barycentric Coding Model
Arxiv
0+阅读 · 2022年1月28日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
相关资讯
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
已删除
将门创投
5+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员