稀疏性在机器学习中扮演着关键的角色,原因有几个,包括可解释性。可解释性是由从业者或科学家寻求的。事实上,一方面,可解释性在医疗健康等实践中可能是关键,在这些实践中,黑盒模型不能用于为患者开具治疗处方。另一方面,可解释性对于理解使用机器学习建模的现象(如等离子体电磁发射)至关重要。除了可解释性,稀疏性还有其他一些重要的应用,如提高模型的预测能力,降低运营和投资成本。 整数优化在处理稀疏性的方法概念中是一个非常有效的工具。它为构建稀疏模型提供了一个严格的框架,并已被证明比其他方法(包括使用稀疏诱导正则化规范的方法)提供了更精确和稀疏的模型。本文主要研究整数优化在稀疏性问题中的应用。
我们提供了稀疏建模的两个应用。第一个是关于混合整数优化稀疏回归在激光诱导击破光谱分析技术中的应用。我们在化学计量学中建立了一种稀疏和鲁棒模型的方法,并在各种类型的矿物矿石上进行了测试。MIO方法优于专家的预测,同时提供了与𝐿𝐴𝑆𝑆𝑂相比显著稀疏的模型。由于𝑅2在某些情况下达到的值高于0.99,据我们所知,这个应用程序是第一个带来经验证据的应用程序,证明在自然界中存在真正的支持,因为优化社区一直在质疑在现实生活中的应用程序中存在这样的概念。第二个应用与COVID检测和稀疏分类有关。我们提出了一种基于光谱的快速、简单的检测方法。这种新方法建立在机器学习能力的基础上,可以在一分钟内完成诊断,不使用任何试剂,达到接近PCR的精确度。稀疏方法能够检测SARS-CoV-2 RNA和蛋白质的3D结构中的特定特征。
鉴于主成分分析在我们的研究和机器学习中的重要性,我们也提供了一种解决稀疏主成分分析问题的新方法。该方法是第一个一步生成多个稀疏主成分的方法,而现有的技术依赖于压缩迭代生成主成分。提出的方法(GeoSPCA)生成高质量的解决方案,将压缩技术解释的方差提高了一个数量级以上。