职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于情感语义对抗的跨语言情感分类模型*

2023-05-06 19:55:15

赵亚丽,余正涛,郭军军,高盛祥,相 艳

(1.昆明理工大学信息工程与自动化学院,云南 昆明 650500;
2.云南省人工智能重点实验室,云南 昆明 650500)

随着“一带一路”倡议的提出,中国和越南在政治、经济等领域的联系愈加紧密。在越南热点事件发生后,越南社交媒体在互联网上进行报道,及时了解这些热点报道中民众的情感态度,对中越双边政治、贸易和文化交流有巨大影响。然而,越南语属于小语种,缺乏大规模标记数据,汉越2种语言存在语义鸿沟,且人工标注费时费力。

Table 1 An example of the COVID-19 reviews in Vietnamese and Chinese表1 新冠疫情评论汉越样例数据示例

越南语等低资源语言缺乏标注数据,而已有的监督学习方法仍然是基于机器翻译[1 - 3]的跨语言情感分类方法。由于受机器翻译性能误差累积的影响,面向东南亚小语种语言的情感分类准确率普遍较低。

对于没有标注数据的低资源语言的情感分类,通常的做法是借助另外一种标记资源丰富的语言,用跨语言情感分类CLSC(Cross-Lingual Sentiment Classification)的方法辅助目标语言进行情感分类,借助对抗网络,获得双语语义对齐空间。传统的方法仅仅是在语义空间对齐,而情感词是情感分类的最直接有效的描述,也应该将其作为情感分类的依据。

在跨语言情感分类的任务中,如何实现不同语言的句子在公共语义空间的语义对齐,如何在没有任何标签的情况下去无监督地完成情感分类是CLSC的核心难点。

要完成越南语的情感分类,首先要解决汉语和越南语不在同一语义空间的问题。Zhou等[4]实现跨语言情感分析的方式是通过机器翻译将源语言翻译为目标语言,跨语言表示学习是指不同语言的词向量表示可以共享一个向量空间,不同语言中情感语义相近的词在该空间中的距离相近。Mikolov等[5]提出将双语单词进行对齐,并训练得到源语言词向量空间到目标语言词向量空间的线性映射。Faruqui等[6]提出将源语言和目标语言的词嵌入映射到同一个向量空间。Lauly等[7]提出通过自编码器对源语言进行编码,同时源语言和目标语言通过解码来得到双语的词向量。Meng等[8]利用平行语料库提升词典覆盖率,采用最大似然值对词语进行标注,进而提升情感分类的准确率。粟雨晴等[9]通过构建双语词典,进行微博多情感分析。但这2种方法都需要构建多语言平行语料库,分类准确率依赖于语料库的质量和规模大小。Wang等[10]利用因子图模型的属性函数从每个帖子中学习单语和双语信息,利用因子函数来探索不同情绪之间的关系,并采用置信传播算法来学习和预测模型。

深度学习中的生成对抗网络可以很好地应用于迁移学习任务中,使用生成对抗网络构建起源语言与目标语言之间的桥梁,从而缓解了目标语言中标注数据匮乏的问题。但是,传统的GAN(Generative Adversarial Networks)[11]存在不易训练、生成数据可解释性差和易崩溃等缺点。近年来对GAN的研究主要有以下几种改进:对抗式自编码器AAE(Adversarial AutoEncoders),由Makhzani等[12]提出,加入自编码器可使生成数据更接近于输入数据,从而避免无效数据的产生;
信息生成对抗网络InfoGAN(interpretable representation learning by Information maxmizing Generative Adversarial Net),Chen等[13]提出了InfoGAN模型,该模型在生成器中引入隐含编码,利用隐含编码对生成数据做出解释;
序列生成对抗网络SeqGAN,Yu等[14]提出的SeqGAN模型把序列生成问题看作序列决策制定过程,并使用强化学习的思想对模型进行训练;
条件生成对抗网络CGAN(Conditional GAN),CGAN模型由Mirza等[15]提出,该模型在对生成器和判别器建模时引入了条件变量,通过最大最小化条件变量使得生成器的输出既与真实数据相似又受条件约束。这些改进的GAN在文本和图像领域已取得不错的进展[16]。

以上对于GAN的研究多数局限在图像以及单语文本研究领域。本文在基于对抗的卷积神经网络CNN(Convolution Neural Network)文本分类模型上加入了原文情感词典的特征扩展,经过对抗,将高资源情感语义模型迁移到低资源语言,得到双语情感语义对齐空间,显著提升低资源语言情感分类任务的识别性能。

本文融合情感词典来指导低资源语言的跨语言情感分类,提出了基于情感语义对抗的无监督跨语言情感分类模型SADAN(Sentiment Adversarial Deep Averaging Network)。图1是本文模型的基本结构,其中虚线表示无标签的数据,实线表示有标签的数据。

Figure 1 Cross-language sentiment classification model based on sentiment semantic confrontation图1 基于情感语义对抗的跨语言情感分类模型

3.1 模型框架

SADAN是一个具有2个分支的前馈网络。网络中有3个主要模块,分别是:

(1)融合情感词的句子语义表征模块:将句子和句子中的情感词进行拼接,对拼接后的句子进行嵌入,用CNN进行特征抽取,分别获得汉越2种语言在单语语义空间下的情感语义表征。CNN作为共享特征提取器,目的是帮助情感分类器学习情感特征,并阻碍语言鉴别器辨别该特征来自于源语言还是目标语言。

(2)双语情感语义对齐模块:将2种语言的语义表征进行对抗训练,实现高资源语言到低资源语言的对齐,得到双语情感语义对齐空间。

(3)跨语言情感分类模块:将卷积得到的句子表征和句子中所包含的情感词(保持维度相同)进行拼接得到新的词向量,实现句子的特征扩展,再通过滤波器抽取得到句子特征的向量化表示。最后基于softmax激活函数[18]进行目标语言的情感分类。

3.2 融合情感词的句子语义表征模块

3.2.1 情感词拼接

句子中情感词的获取是跨语言情感分类任务的第1步。利用匹配算法将语料句子中的每个词和情感词典中的词进行匹配,将句子中的情感词拼接在句子后面。

X={Xi,i=1,2,3,…,n}

(1)

X′={(Xi,Si),i=1,2,3,…,n;Si∈Rn×|S|}

(2)

Y={Yj,j=1,2,3,…,m}

(3)

Y′={(Yj,Kj),j=1,2,3…,m;Kj∈Rn×|K|}

(4)

其中,X表示源语言句子集合,Y表示目标语言句子集合,X′表示源语言句子与句子中情感词拼接后的句子集,Xi表示源语言句子集中的第i个句子,Si表示拼接在第i个句子后的情感词,n表示源语言句子个数,|S|表示拼接的情感词的长度,Y′表示目标语言句子与句子中情感词拼接后的句子集,Yj表示目标语言句子中第j个句子,Kj表示第j个目标语言句子后拼接的情感词,|K|表示拼接的情感词的长度。

3.2.2 双语词嵌入

给定源语言句子输入X′={(xi,li),j=1,2,3,…,n}和一个目标语言句子输入Y′={(yj,zj),j=1,2,3,…,m}。本文利用双语词嵌入将每个句子中的每个词表示成z维词向量,如式(5)和式(6)所示:

EX′=emb(Xi,Si)

(5)

EY′=emb(Yj,Kj)

(6)

其中,EX′∈Rn×|q|和EY′∈Rn×|d|分别表示嵌入函数,它将每一个输入序列中的每个词转化为对应的z维词向量;

|q|和|d|表示源语言和目标语言输入模型的句子长度。本文所采用的词嵌入设为50维,即z=50。

3.3 双语情感语义对齐模块

将句子和句子中的情感词进行拼接,用卷积神经网络对拼接后的句子进行联合表征,分别获得汉越2种语言单语语义空间下的情感语义表征;
然后,通过对抗网络在双语情感语义空间将带标签数据与无标签数据的情感语义表征进行对齐。该模块包括共享特征提取器模块(F)和语言鉴别器(D)。

3.3.1 CNN共享特征提取器(F)

图1中嵌入层的输出送给用于特征提取的卷积层。本文在对句子进行特征提取的同时,也对句子中的情感词进行特征提取。每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息。窗口的大小设定为k,在卷积操作中有连续k个词向量获得新的特征向量ci,i表示第i个特征值,xi:i+k-1表示输入评论句中第i个词到第i+k-1个词经过卷积操作得到的向量表示。操作过程可以用式(7)表示:

ci=f1(w·xi:i+k-1+b)

(7)

其中,滤波器的权重矩阵w∈Rk×d,b为偏置项,f1为激活函数。

提取出来的特征C表示为式(8):

C=[c1,c2,…,cn-k+1]

(8)

同理,情感词抽取出的特征A表示为式(9):

A=[a1,a2,…,am]

(9)

其中,ai,1≤i≤m表示情感词抽取出的特征向量。

3.3.2 语言鉴别器(D)

考虑源语言(src)和目标语言(tgt)的联合隐藏特征的分布,如式(10)和式(11)所示。

(10)

(11)

为了学习汉越双语的语言特征,SADAN训练F(x)使这2个分布尽可能接近,以获得更好的跨语言概括。由于Jensen-Shannon散度存在不连续性,Arjovsky等[19]建议将Wasserstein距离最小化,并证明了其对超参数选择的稳定性有所帮助。

(12)

为了使D成为Lipschitz函数(直到一个常数),D的参数总是被限制在一个固定的范围内。设D用θq参数化,那么目标Jq如式(13)所示:

Jq(θf)≡

(13)

3.4 跨语言情感分类模块(P)

v′=w′·v+b′

(14)

其中,w′为全连接层训练的权重矩阵,b′为偏置项。v′经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数可以决策出最大概率的类别,用式(15)表示如下:

p=softmax(v′)

(15)

其中,softmax为分类器。p表示句子最终情感特征所属的概率,可以判别出句子的情感类别。

对于由θp参数化的情感分类器P,使用传统的交叉熵损失,表示为Lp(y′,y),其中y′和y分别是预测的标签分布和真实的标签。Lp是P预测正确标签的负对数似然。因此,求P的以下损失函数的最小值,用式(16)表示如下:

(16)

4.1 数据集和评价指标

4.1.1 汉越数据集

汉越数据集的构建过程与文献[13]中构建CLSC汉英数据集类似,参数设置如表2所示。CLSC数据集是从新浪微博与推特平台获取的2020年美国疫情相关的热门社交媒体评论数据,共包含20 334条中文微博评论和11 233条越南语推特评论,经过筛选与预处理形成json格式文件,经过一系列数据整理和预处理后获得汉越CLSC数据集,数据格式为:(中文句子,中文情感词,标签l)和(越南语句子,越南语情感词),其中l∈{0,1,2,3,4}。

Table 2 Parameters setting表2 参数设置

4.1.2 英中数据集

本文的英语数据集是文献[21]中的70万条Yelp评论的平衡数据集并采用了他们的训练集和验证集分割:65万份用于训练和50万份用于验证。中文数据集方面,本文使用Lin等[22]的1万条中国酒店评论用作验证集,另外的15万条未标记的中国酒店评论作为测试集。

4.2 评价指标及模型参数设置

4.2.1 评价指标

本文的实验评价指标使用准确率Accuracy、精确率Precision、召回率Recall和F1值,主要使用Accuracy进行评价。其计算公式分别如式(17)~式(20)表示为:

(17)

(18)

(19)

(20)

其中,TP表示实际为正例且被分类器划分为正例的样本数,TN表示实际为负例且被分类器划分为负例的样本数,FP表示实际为正例且被分类器划分为负例的样本数,FN表示实际为负例且被分类器划分为正例的样本数。

4.2.2 模型参数设置

本文模型基于pytorch的深度学习框架,具体参数设置如表2所示。

4.3 基准模型与实验结果分析

4.3.1 基准模型

本文模型与Train-on-SOURCE-only,Domain Adaptation,Machine Translation,CLD-based CLTC和ADAN等基准模型做了对比实验。

Train-on-SOURCE-only[23]模型:Logistic Regression和DAN在源语言英语上进行训练,并且只依靠双语词嵌入BWE(Bilingual Word Embeddings)对目标语言进行分类。

Domain Adaptation模型:在域自适应中,广泛使用Sinno等[24]的模型并不奏效,因为它需要样本数量(650 000)的二次空间。因此,本文将其与Chen等[25]提出的mSDA模型相比较,后者是对亚马逊评论进行跨领域情感分类非常有效的模型。

基于Machine Translation CLSC[26]模型:
根据机器翻译的2种模型Logistic Regression+MT和DAN+MT评估本文模型。

CLD-based CLTC(Cross-Lingual Distillation-based Cross-Lingual Text Classification)模型:Xu等[27]提出了一种跨语言提取CLD模型,该模型利用并行语料库上的预测来训练目标语言CLD-KCNN(Cross-Lingual Distillation-Knowledge-aware Convolutional Neural Network),并进一步提出了一种改进的变体CLDFA-KCNN(Cross-Lingual Distillation with Feature Adaptation-Knowledge-aware Convolutional Neural Network),该变体利用对抗性训练来弥补源语言和目标语言中标记和未标记文本之间的领域差距。

ADAN(Adversarial Deep Averaging Network)模型[28]:该模型由CNN和GAN神经网络组成,其中CNN负责提取句子中的特征,GAN负责学习双语语言特征。

4.3.2 实验结果及分析

实验对本文所提模型的有效性进行验证,在越南语数据集上证明模型的有效性。实验结果如表3所示。

Table 3 Experimental results on Chinese-Vietnamese data set 表3 汉越数据集上的实验结果 %

为了验证本文所提出的基于情感语义对抗的无监督跨语言情感分类模型的泛化性,本文还在文献[13]中公布的公共数据集上将性能最优的“本文模型”与上述基准模型的性能作对比,对比实验结果如表4所示。实验表明了情感语义对抗的有效性与泛化性。具体分析结果如下:

Table 4 Accuracy comparison of models on yelp dataset and Chinese hotel dataset表4 yelp和中文酒店数据集上模型准确率对比 %

(1)Train-on-SOURCE-only基准模型中的Logistic Regression使用标准的监督学习算法,此外,本文还评估了模型的一个非对抗变量,即DAN模型,它是情感分类的现代神经模型之一。与SADAN相比,仅基于源语言的基线模型表现不佳,这表明BWE本身不足以转移知识。

(2)mSDA的表现并不具有竞争力,这可能是因为包括mSDA在内的许多领域适应模型都是为使用词袋特征而设计的,但这种模型并不适合本文的任务,因为2种语言的词汇完全不同。这表明即使是域自适应算法也不能在CLSC任务中使用现成的BWE。

(3)SADAN模型在2种语言上都显著优于机器翻译基准模型,这表明本文的对抗模型可以在没有任何目标语言注释数据的情况下成功地进行跨语言情感分类。

(4)与CLD-based CLTC基准模型相比较,可以看出本文SADAN模型使中文准确率有了显著提升,CLD-based CLTC模型使用对抗式训练在单一语言中进行领域适应,而本文直接使用对抗式训练进行跨语言概括比较,证明了本文SADAN模型的有效性。

(5)ADAN模型仅仅得到语义对齐,而本文模型得到双语情感语义对齐,证明了本文模型的有效性。

由此可见,本文的分类模型相对其他基准模型具有更高的准确率。

4.3.3 拼接是否为情感词对模型准确率的影响

为了证明本文提出的融合情感词典来指导跨语言情感分类对本文模型的有效性,本文在汉越和中英数据集上进行了一组简单的消融实验,实验结果如表5所示,“(-)情感词”表示未使用情感词辅助指导跨语言情感分类,仅使用语句中的情感无关随机词。

Table 5 Ablation experimental results about the emotional words for splicing 表5 拼接是否为情感词消融实验结果 %

由表5可知,在本文模型中使用情感词拼接时,较无情感词拼接的模型准确率提高了4%。由此证明,在跨语言任务当中,拼接情感词可以丰富短文本的表征,从而提高了模型的准确率。

4.3.4 有无对抗网络对模型准确率的影响

为了证明本文提出的使用对抗网络辅助来指导跨语言情感分类方法对本文模型的有效性,本文在数据集上进行了是否应该有对抗网络的消融实验,实验结果如表6所示,“(-)对抗”表示未使用对抗网络辅助来指导跨语言情感分类。

Table 6 Ablation experimental results about the against network 表6 是否有对抗网络消融实验结果 %

由表6可知,在本文模型中,当使用对抗网络时,准确率较高。由此证明,在跨语言任务当中,对抗也可以在一定程度上拉近不同语言的语义空间。

4.3.5 拼接情感词长度选择对模型准确率的影响

为了证明拼接不同长度情感词来指导跨语言情感分类对本文模型的有效性,本文在汉越和中英数据集上进行了拼接情感词长度选择的消融实验,实验结果如表7所示,“(mean)情感词平均个数”表示使用训练中情感词的平均长度进行补齐来指导跨语言情感分类,“(max)情感词个数”表示使用训练中情感词的最大长度进行补齐来指导跨语言情感分类 。

Table 7 Results of the ablation experiment on the number of emotional words表7 情感词个数消融实验结果 %

由表7可知,在本文模型中,在原来评论句子的基础上,加入情感词后,准确率较基准ADAN模型有一定提升,说明情感词拼接的个数可以影响模型的准确率,当情感词拼接个数取该批次中情感词长度的平均值时,模型效果达到最佳。

情感词拼接个数的增加会使情感相关特征得到扩展,从而达到更好的分类效果。而情感词增加到该批次的最大数量时,准确率开始逐渐下降。英文Yelp的评论数据和中文酒店相关的评论数据截然不同,但在拼接了该批次的情感词平均长度后,模型准确率也有明显提升,准确率达到了45.65%;
当拼接的情感词数量增加到批次长度限制的时候,准确率有显著下降。这说明随着拼接情感词个数增加,卷积层从情感词和评论句子拼接后的向量中学习到的特征会更分散,这时候情感词的加入反倒产生了噪声,导致准确率在后续不再增长。因此,拼接的情感词个数不是越多越好。

本文研究旨在提升无标注的低资源目标语言的情感分类的准确率。针对不同语言之间存在语义鸿沟等导致分类准确率低这一问题,本文利用有丰富标记数据的源语言辅助无标注数据的目标语言,提出基于情感语义对抗的跨语言情感分类模型。本文模型在自制的汉越数据集和CLSC公共数据集上均取得了显著效果。当前,针对低资源语言的跨语言情感分析仍然是情感分析领域的研究热点和难点。在未来工作中,将针对低资源语言信息检索展开进一步研究,在提高分类准确率的同时,在细粒度方面展开进一步研究。

猜你喜欢源语言目标语言语义语言与语义开放教育研究(2020年2期)2020-03-31中国大学生对越南语虚词的误用教育教学论坛(2019年18期)2019-06-17林巍《知识与智慧》英译分析河南教育·高教(2019年3期)2019-04-11浅析日语口译译员素质北方文学(2018年18期)2018-09-14教材插图在英语课堂阅读教学中的运用及实例探讨文理导航(2017年25期)2017-09-07“上”与“下”语义的不对称性及其认知阐释现代语文(2016年21期)2016-05-25以口译实例谈双语知识的必要性考试周刊(2015年36期)2015-09-10认知范畴模糊与语义模糊大连民族大学学报(2015年2期)2015-02-27从目的论角度看《红高粱》中文化负载词的翻译科学中国人(2014年22期)2014-07-23多媒体英语学习法疯狂英语·中学版(2013年7期)2013-08-01

Tags: 情感   语义   对抗  

搜索
网站分类
标签列表