本文是平安科技在ACL2020上发表的论文。
这个想法是相对新颖的。
它将ERC任务视为序列标记任务,并建立情绪一致性模型。
解决ERC的先前想法是使用上下文的话语特征来预测对话中单个话语的情感标签,但这样做时,情感标签之间的内在关系被忽略了。
在本文中,作者提出了一个将情感分类作为序列标签的模型。
对于给定的会话,我们考虑附近的情感标签之间的关系,而不是独立地预测话语的情感标签,并一次为整个会话选择全局最佳标签序列。
**情绪一致性**表示说话者下一个句子的情感与此句子的情感一致。
本文的贡献是第一个将ERC任务建模为序列标记的模型,并使用CRF建模会话中的情感一致性。
CRF层使用上方和下方的情感标签来联合解码整个对话的最佳标签序列。
应用多层Transformer编码器来增强基于LSTM的全局上下文编码器,这是因为在长距离上下文特征提取方面,Transformer的提取能力比LSTM强大得多。
本文对三个对话数据集进行了实验。
实验表明,对情绪一致性和远程上下文依赖进行建模可以提高情绪分类的性能。
该模型的作者提出了ContextualizedEmotionSequenceTagging(CESTa)模型的UtterancesFeatures。
对于对话中的第t次发声,句子表示** ut **由单层CNN提取,并输入到全局上下文编码器和个人上下文编码器中。
全局上下文编码器(GlobalContextEncoder)说话者之间的依存关系对对话中的情绪动态非常重要。
例如,当前讲话者的情绪可以被另一方的讲话改变,因此必须考虑上下文信息。
全局上下文编码器使用多层Transformer + BiLSTM编码所有句子,该多层Transformer + BiLSTM旨在捕获长距离上下文信息。
个人上下文编码器(IndividualContextEncoder)个人上下文编码器将跟踪每个讲话者的自立性,以反映讲话者在谈话过程中对自己的情感影响。
在情绪惯性的影响下,说话者倾向于保持稳定的情绪状态,直到另一方引起变化为止。
该层使用LSTM作为个人上下文编码器,并在每个时间步长输出所有扬声器的状态。
将CRF层的全局上下文编码器的输出gt和个人上下文编码器的输出st进行拼接,并通过全连接层发送到CRF层以产生最终预测,且得分最高的序列为选择作为输出。
实验的作者对三个对话数据集进行了实验。
与基线相比,本文中的模型在所有三个数据集上均获得了SOTA结果。
研究TransformerEnhancing在不同长度的对话中的性能。
作者在IEMOCAP数据集上比较了CESTA模型。
与不带Transformer的模型变体相比,从下图可以看出,当数据集中的言语长度超过54时,两者之间的差距变大,这反映了Transformer捕获远程上下文特征的能力。
情感一致性分析的作者在IEMOCAP数据集上测试了情感一致性,并比较了两个模型,一个是带有CRF层的CETa模型,另一个是使用softmax层而不是CRF进行分类的比较模型。
从下图可以看出,CESTA模型可以很好地学习情绪一致性。