Transformer:理论架构创新 自注意力机制:支持并行计算/全局上下文的理解能力 多头注意力:从多个角度捕捉复杂的语义关系 前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性 预训练时代:大力出奇迹(“暴力美学”) BERT:Bidirectional Encoder Representations Transformers GPT: Generative Pertained Transformer 自监督算法:MLM/NTP/MAE解决海量数据标注问题