A common problem in data science is "use this function defined over this small set to generate predictions over that larger set." Extrapolation, interpolation, statistical inference and forecasting all reduce to this problem. The Kan extension is a powerful tool in category theory that generalizes this notion. In this work we explore several applications of Kan extensions to data science. We begin by deriving a simple classification algorithm as a Kan extension and experimenting with this algorithm on real data. Next, we use the Kan extension to derive a procedure for learning clustering algorithms from labels and explore the performance of this procedure on real data. We then investigate how Kan extensions can be used to learn a general mapping from datasets of labeled examples to functions and to approximate a complex function with a simpler one.
翻译:数据科学的一个常见问题是“ 使用这个小数据集定义的函数来生成大数据集的预测 ” 。 外推、 内推、 统计推论和预测都减少了这个问题。 Kan 扩展是一个强有力的分类理论工具, 概括了这个概念。 在这项工作中, 我们探索了 Kan 扩展对数据科学的若干应用。 我们首先从一个简单的分类算法中得出一个 Kan 扩展, 并在真实数据上试验这个算法 。 其次, 我们使用 Kan 扩展来从标签中获取组合算法的程序, 并探索这个程序在真实数据上的性能 。 然后我们研究 Kan 扩展如何从标签示例的数据集中学习一般绘图, 与功能相近, 并用一个简单的函数来接近一个复杂的函数 。