Text detoxification is a style transfer task of creating neutral versions of toxic texts. In this paper, we use the concept of text editing to build a two-step tagging-based detoxification model using a parallel corpus of Russian texts. With this model, we achieved the best style transfer accuracy among all models in the RUSSE Detox shared task, surpassing larger sequence-to-sequence models.
翻译:文本解毒是创建中性版本有毒文本的风格传输任务。 在本文中, 我们使用文本编辑的概念来建立一个基于两步标记的脱毒模型, 使用一套平行的俄罗斯文本。 有了这个模型, 我们实现了RUSSE Detox 共享任务中所有模型的最佳风格传输准确性, 超过了较大的序列到序列模型 。