Learning with limited data is one of the biggest problems of machine learning. Current approaches to this issue consist in learning general representations from huge amounts of data before fine-tuning the model on a small dataset of interest. While such technique, coined transfer learning, is very effective in domains such as computer vision or natural langage processing, it does not yet solve common problems of deep learning such as model interpretability or the overall need for data. This thesis explores a different answer to the problem of learning expressive models in data constrained settings: instead of relying on big datasets to learn neural networks, we will replace some modules by known functions reflecting the structure of the data. Very often, these functions will be drawn from the rich literature of kernel methods. Indeed, many kernels can reflect the underlying structure of the data, thus sparing learning parameters to some extent. Our approach falls under the hood of "inductive biases", which can be defined as hypothesis on the data at hand restricting the space of models to explore during learning. We demonstrate the effectiveness of this approach in the context of sequences, such as sentences in natural language or protein sequences, and graphs, such as molecules. We also highlight the relationship between our work and recent advances in deep learning. Additionally, we study convex machine learning models. Here, rather than proposing new models, we wonder which proportion of the samples in a dataset is really needed to learn a "good" model. More precisely, we study the problem of safe sample screening, i.e, executing simple tests to discard uninformative samples from a dataset even before fitting a machine learning model, without affecting the optimal model. Such techniques can be used to prune datasets or mine for rare samples.
翻译:以有限的数据进行学习是机器学习的最大问题之一。 这一问题的当前方法包括:在微调模型之前,先从大量数据中从大量数据中学习一般表述,然后再微调一个引起兴趣的小数据集。 虽然这种技术,即硬转式学习,在计算机视觉或自然兰格处理等领域非常有效,但它还不能解决深层次学习的常见问题,例如模型解释性或数据的总体需要。 这个论文探讨了在数据限制环境中学习表达模型的答案不同:我们不用依靠大数据集来学习神经网络,而是用反映数据结构的已知功能来取代一些模块。非常经常地,这些功能将从丰富的内核方法的文献中提取。 事实上,许多内核网络可以反映数据的基本结构,从而在某种程度上保留学习参数。 我们的方法在“诱导偏偏偏偏偏偏偏”的阴影之下,这可以被定义为在模型上对模型进行精确探索的空间的假设。 我们甚至可以展示这种方法在序列中的有效性,例如影响数据结构结构结构的句子或蛋白质序列序列中的计算, 和图表中我们需要一种新的数据, 在模型中学习新的模型中,我们需要一种新的数据, 学习一个新的模型, 学习一个新的模型,我们需要一个新的模型, 学习一个新的模型, 学习一个新的模型,我们需要一个新的, 学习一个新的, 学习一个新的, 学习一个新的, 学习一个新的, 学习一个新的模型, 学习一个新的,我们在这里学习一个新的, 学习一个新的, 学习一个新的, 学习一个新的, 学习一个, 学习一个新的, 学习一个新的, 学习一个新的,, 学习一个,,,, 学习一个,在机器的,在机器的,在机器的,在机器的, 学习一个, 学习一个, 学习一个, 学习一个,在机器的, 学习一个新的, 学习一个, 学习一个新的, 学习, 学习一个,在新的,在机器的, 模型, 模型, 学习一个, 学习一个, 学习一个, 学习一个,在新的,在新的,在新的,在新的,,,,在新的,在新的,在新的,在新的,在新的,我们学习,在新的,在新的,在新的, 模型,,,