过去十年,深度学习在几个重要应用中取得了巨大成功,但数学理解却落后于它惊人的经验成功。经典的机器学习理论不足以解释深度学习中的各种新现象,并为算法选择提供指导,很大程度上是由于过于简化的黑盒观点忽略了模型与优化算法之间的相互作用。本文提出了一组理论结果,考虑了模型和优化算法之间的相互作用,旨在弥合深度学习的理论和实践之间的差距,以实现泛化和优化。在优化方面,我们首先通过呈现一个在经验上工作良好的指数级增长的学习率计划来说明传统优化理论和具有标准化层的深度网络之间的不匹配。本文通过建立其与具有权重衰减的SGD的等价性来解释这种惊喜,并证明其收敛速度快且对初始化规模不敏感。在此基础上,我们设计了一种名为SIBERT的BERT变体,它可以被SGD训练,因此比ADAM等自适应算法更节省内存。最后,提出了第一个可证明的通用场景,根据经验观察,梯度下降以非单调的方式减少损失。在泛化方面,本文研究了优化算法的隐式偏差,即尽管存在因模型过参数化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先给出了一个严格的理由,为什么卷积网络比全连接网络的样本效率更高。为经验观察提供了理论证明,包括矩阵分解在内的深度线性网络,是由从小初始化隐偏置到低秩解的梯度下降训练的。我们还确定了一个条件,即梯度下降与镜像下降等价,可以用来理解非线性模型的隐式偏差,并恢复几个先前的结果。进一步表明,当有一定的梯度噪声或其学习率大于2的损失锐度时,梯度下降对"更平坦"的解决方案有隐性偏差。