我想要评论的最重要的趋势是,由于微调,特别是随着GPT等基础模型的出现,从零开始训练神经网络完成某些目标任务(如数字识别)的整个设置正迅速过时。这些基础模型仅由少数拥有大量计算资源的机构训练,大多数应用都是通过对部分网络进行轻量级微调、快速工程化或将数据或模型蒸馏到更小的、专用推理网络的可选步骤来实现的。我认为,我们应该期待这种趋势非常活跃,而且确实会加剧。在最极端的推断中,你根本不想训练任何神经网络。在2055年,你会让一个1000万x大小的神经网络的超级大脑用英语说话(或思考)来执行一些任务。如果你要求得足够好,它就会满足你。是的,你也可以训练神经网络,但你为什么要这样做呢?