在本文中,我们调查了一个称为叙事动作评估(NAE)的新问题。NAE旨在生成评估动作执行的专业评论。与传统任务如基于分数的动作质量评估和涉及表面句子的视频字幕不同,NAE侧重于创建自然语言中的详细叙述。这些叙述提供了对动作的复杂描述以及客观评估。NAE是一个更具挑战性的任务,因为它既需要叙述的灵活性,又需要评估的严谨性。一个现有的可能解决方案是使用多任务学习,其中叙述语言和评估信息分别预测。然而,这种方法会因任务之间的变化和语言信息与评估信息之间的模态差异而导致各自任务的性能降低。为了解决这个问题,我们提出了一个基于提示的多模态交互框架。该框架利用一对transformers促进不同信息模态之间的交互。它还使用提示将分数回归任务转化为视频文本匹配任务,从而实现任务的互动性。为了支持该领域的进一步研究,我们重新注释了MTL-AQA和FineGym数据集,提供了高质量和全面的动作叙述。此外,我们为NAE建立了基准。广泛的实验结果证明我们的方法优于单独学习方法和简单的多任务学习方法。数据和代码已发布在此处。