文档则是 NLP 领域常见的文本类型,其长度通常较长,如果用 Transformer 去建模长文档,计算开销会很大。所以,通常的做法是对长文档进行截断,但是这样会造成文档输入信息不全,影响最终的文档建模效果。
对此,微软亚洲研究院的研究员们注意到,长文档通常由多个句子组成,不同句子的语义既相对完整自洽。基于这两点,研究员们提出了一种层次化 (Hierarchical) 和交互式 (Interactive) 的Transformer 结构:Hi-Transformer,来实现高效和准确的长文档建模,
Hi-Transformer 的结构非常简单。首先使用 Sentence Transformer 来学习每个句子的语义表示。然后使用 Document Transformer,从文档内部所有句子的语义表示中建模整个文档的 Global context,并得到 Document context-aware 的句子语义表示,进而将其输入到另一个 Sentence Transformer 中,以实现利用 Global document context 来增强每个句子语义学习的目标。最后,使用层次池化方法获得文档的表示。