网络修剪是解决大型语言模型(LLMs)部署和推理中巨大计算资源需求的有前景的方法。对于LLMs的修剪方法来说,无需重新训练是重要的。然而,几乎所有现有的LLMs无需重新训练的修剪方法都集中在非结构化修剪上,这需要特定硬件支持才能加速。在本文中,我们提出了一种新颖的针对LLMs的无需重新训练的结构化修剪框架,命名为FLAP(基于波动的自适应结构化修剪)。它通过有效减少存储和提高推理速度,对硬件友好。为了有效地对LLMs进行结构化修剪,我们强调了三个需高度关注的关键要素:制定结构化重要性指标、自适应搜索全局压缩模型和实施补偿机制以减轻性能损失。首先,FLAP基于波动修剪指标判断移除权重列时输出特征图是否容易恢复。然后它标准化重要性分数以自适应地确定全局压缩模型结构。最后,FLAP添加额外的偏置项使用基线值来恢复输出特征图。我们在各种语言基准上全面评估了我们的方法。在无需任何重新训练的情况下,我们的方法显著优于包括LLM-Pruner和Wanda在内的结构化修剪领域的最新方法。代码发布在https://github.com/CASIA-IVA-Lab/FLAP。