做PPT需要复杂的多模态推理技能,以总结关键概念,并以逻辑和视觉上令人愉悦的方式呈现它们。机器能学会模仿这个费力的过程吗?我们提出了一种新的任务和方法来生成文档到幻灯片。解决这一问题涉及文档摘要、图像和文本检索、幻灯片结构和布局预测,以便以适合展示的形式安排关键元素。我们提出了一个层次序列到序列的方法,以端到端方式解决我们的任务。我们的方法利用文档和幻灯片的固有结构,并结合释义和布局预测模块来生成幻灯片。为了加速这一领域的研究,我们发布了一个关于6K配对文档和幻灯片组的数据集,用于我们的实验。我们证明了我们的方法优于强基线,并产生了具有丰富内容和对齐图像的幻灯片。
https://www.zhuanzhi.ai/paper/3078b811fd7aeb94fd538d646503840e