说话头生成是根据给定的源身份和目标运动生成视频。然而,目前的方法面临着一些挑战,限制了生成视频的质量和可控性。首先,生成的人脸往往存在意想不到的变形和严重的失真。其次,驾驶图像没有明确地解缠运动相关信息,如姿态和表情,这限制了在生成过程中对不同属性的操作。第三,由于相邻帧之间提取的地标不一致,生成的视频往往存在闪烁伪影。本文提出一种新的模型,可以产生高保真的头部视频,可以自由控制头部姿态和表情。该方法利用自监督学习路标和基于3D人脸模型的路标来建模运动。本文还提出了一个新的运动感知多尺度特征对齐模块,以有效地迁移运动而不产生面部失真。用特征上下文自适应和传播模块增强了合成的说话人视频的平滑性。在具有挑战性的数据集上评估了该模型,并展示了其最先进的性能。更多信息请访问https://yuegao.me/PECHead。