吴运兵1,2,曾炜森1,2,高航1,2,阴爱英3,廖祥文1,2
2024, 45(11): 2628-2635.
针对现有多模态讽刺解释模型在融合过程中仅关注图像中的细粒度特征信息,使得模型存在解释效果不佳、多模态特征难以融合等问题,本文设计了一种基于双流残差注意力的多模态融合机制.首先,本文采用了BART和VGG19模型分别提取文本和图像两种模态特征.其次,模型经过两路多头注意力引导,分别关注图像和文本的细粒度信息,考虑到单纯的多头自注意力不能很好学习图文间的关联信息,采用二次注意力模块(AOA)合理分配特征权重.最后,本文将多模态特征拼接融合后输入BART解码器中进行讽刺解释.模型在公开的数据集MORE上的实验结果表明,相较于ExMore模型,本文模型在METEOR和ROUGE-L评价指标上分别提升了4.35%、3.39%.实验结果表明本文模型能更好融合模态特征,从而显著地提升模型解释的效果.