在数据稀缺场景下,归纳偏置(inductive bias) 对机器学习至关重要,但其在数据丰富环境中的最优作用仍未被充分理解。本论文挑战了一个传统观点,即:在数值数据建模中(尤其是物理与化学领域),必须依赖严格的架构约束。通过系统的实证研究,我展示了数据驱动的方法在没有显式架构约束的情况下,也能有效学习物理对称性与更广泛的数值模式。
首先,我证明了在经过数据增强训练的 Transformer 模型中,其获得的等变性(equivariance)性质甚至强于卷积神经网络,尽管后者内置了对称性约束。基于这一发现,我进一步探究了预训练语言模型是否能够仅从文本中学习到可泛化的数值能力。通过在多种场景下分析语言模型的表现,我发现文本预训练会诱导模型倾向于简单函数,这种偏好成为跨数值领域的一种强大归纳偏置。这种新兴偏置使得大语言模型能够在时间序列预测与三维结构预测等基准任务上超越专门设计的架构,并以最小化的任务适配达到最新的性能水平。 然而,这些优势并非普遍适用。我识别出分子性质预测是一个关键局限,并将其归因于离散 token 表示中的根本约束。本研究最终提出了一个系统框架,用于理解在数值领域中何时可以用学习到的偏置取代架构约束,并对科学机器学习中的模型设计具有重要启示意义。