阎子悦,昝红英,许鸿飞
2025, 46(12): 2884-2890.
复述(Paraphrase)使用不同的词汇、句子结构或表达方式,传达相近的语义.复述可以有效地扩充训练数据,提升低资源自然语言处理(Natural Language Processing,NLP)任务的性能,现有的工作通常利用机器翻译将双语平行语料中一种语言的语句翻译到另一种语言,作为相应语句的复述.由于机器翻译模型通常在同一个平行语料库中训练,利用翻译模型生成复述库再在复述库上训练复述模型,较原始的双语数据可能会导致信息损失.本文提出在双语平行语料上训练双向的多语言神经机器翻译(Multilingual Neural Machine Translation,MNMT),通过设置语言标记,将多语言机器翻译模型直接作为复述模型使用,要求多语言机器翻译模型直接生成指定语言的复述.人工评估和自动评估结果表明,本文提出的方法生成的复述句较现有的复述库具有更高的流畅性、多样性和语义一致性.在GLUE(General Language Understanding Evaluation)任务上的实验表明利用本文基于多语言机器翻译的复述模型可以更有效地提升多个方面的自然语言理解任务性能.