职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于视频弹幕的特征发现及情感分析研究

2023-01-13 12:15:08

王 力

(1.中国科学技术信息研究所,北京 100038;
2.富媒体数字出版内容组织与知识服务重点实验室,北京 100038)

弹幕源自日本视频分享网站“NICONICO”,这种大量实时产生的评论能够以滑动的方式直接显示在视频界面上,像射击游戏中的弹幕,故被网友称之为弹幕。随着数字媒体技术的发展,越来越多的用户倾向于通过这种方式观看网络视频并发表自己的见解。这种互动机制可有效改善平台的用户参与度,提高视频的点播率及影响。弹幕评论中蕴含着丰富的情感信息,特别是对于电子产品评测视频的弹幕中还包含着大量的用户痛点信息。这些信息一方面反映了用户观看时的褒贬情感,另一方面也可用于企业的决策支撑。从主题上看,弹幕网站及视频传播模式、弹幕文化以及弹幕用户特征是当前弹幕的研究重点。有很多学者都基于使用与满足理论对弹幕进行分析。从弹幕文化上看,学界普遍认为亚文化、狂欢广场和参与式文化是其主要特点。而从用户的角度看,学者们研究围绕着用户使用动机、使用习惯以及影响用户发弹幕因素等展开。还有学者从不同维度对弹幕语言进行了分类,以上都是基于定性方法的研究。随着计算机技术的发展,统计学、人工智能方法被慢慢应用到了弹幕文本分析领域,很多学者也意识到,弹幕中隐含着大量显性和隐性的知识。使用定量方法可以完成更深层次的研究。早期的弹幕文本研究借助于短文本情感分析方法,研究成果也普遍应用于视频检索。

随着深度学习的发展,一部分学者将神经网络引入到弹幕的研究中。庄须强对LSTM深度学习模型进行改进,将主题集中度和情感强度相结合定义为视频片段重要性评分,从而构建SIS-LSTM模型,应用于弹幕评论的情感分析。梁晨将弹幕评论和视频评论分别做情感分析并将结果进行对比,探究对网络视频流行度的影响差异。王瑞东利用多模态情感分析方法实现视频片段情感分类。叶健通过爬取事件型弹幕数据,用CNN进行情感分类,从而得到舆情分析结果。邓杨利用主题模型分析弹幕情感因子,并根据视频片段之间的情感依赖关系推荐视频的情感片段。洪庆分析弹幕内容之间的相似性,从而推断用户之间的关系。邱全磊构建了弹幕表情和语气词词典,提出了一种基于该词典的情感计算方法。

从现有研究中可以发现,缺乏对特定领域弹幕特点的定量化研究;
在弹幕的情感分析研究中,使用的多为基于情感词典的方法或采用简单的情感分析模型。针对这两个问题,该文使用定量化的手段分析电子产品评测视频弹幕文本特征,在此基础上提出BILSTM-CNN-ATT情感分析模型并进行对比实验。实验结果表明,该模型在电子产品评测视频的弹幕评论中具有良好的情感分析效果。

1.1 相关关系计算

统计分析方法是对研究对象的规模、速度、范围等数量关系进行分析和研究,以此揭示事物间的关系、变化和发展。在统计学中,当衡量两个变量的相关关系时,通常采用皮尔逊相关系数法。皮尔逊相关系数的大小可以反映两个变量间线性相关程度的强弱,当皮尔逊相关系数越接近1时,说明两个变量间线性相关程度越大。

1.2 词向量构建

词向量是以深度神经网络技术和全网海量优质数据为基础,让文本的计算通过词语的向量化来实现,从而可以很好地描述词语间的关系,是自然语言处理中非常重要的一个环节。目前词向量表示法包括早期的独热表示、TF-IDF等,以及分布式表示法,如Word2Vec、ELMo等。Word2Vec是一个具有隐含层的神经网络,该模型将词表达为固定维数的词向量。模型框架根据不同的输入和输出,又可以分为skip-gram和CBOW模型。如果将一个词作为输入来预测这个词的上下文,则为skip-gram模型。反之,输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量,则是CBOW模型。和CBOW模型相比,skip-gram调整的词向量相对更加准确。

1.3 深度学习模型

深度学习是一种复杂的机器学习算法,其模型是一种具有多层结构的神经网络。它通过将低层特征进行组合形成更加抽象的高层特征表示属性类别和特征,进而发现数据的分布式特征表示。在搜索技术、机器翻译、语音和图像识别等相关领域都取得了卓越成果。深度学习中包括多种简单或复杂的模型,适用于解决不同类型的问题。

1.3.1 BILSTM(双向长短期记忆网络模型)

LSTM的全称是Long Short-Term Memory,它是RNN的一种衍生网络模型。它通过引入特别设计的记忆结构和单元,有效缓解了RNN中描述长距离文本依存关系中面临的梯度消失问题。LSTM由于其设计的特点,非常适合用于对时序数据的建模。但一个词在文中,既有上文又有下文,LSTM虽解决了上文语义依赖的问题却忽略了下文。研究人员提出了BILSTM(双向长短期记忆网络模型)弥补了深度学习中下文信息的缺失,它是由一个正向LSTM和一个反向LSTM叠加而成,具备良好的神经网络拟合非线性的能力,可更好地捕捉上下文的信息。

1.3.2 CNN(卷积神经网络)

卷积神经网络是一种以图像识别为中心在多个领域都得到广泛应用的深度学习方法。由输入层(input layer)、卷积层(convolution layer)、池化层(pooling layer)、全连接层(fully connected layer)和输出层(output layer)组成。其中,卷积层是该模型的核心,卷积核用于提取内部特征。池化层的作用是减小卷积层产生的特征图尺寸。全连接层则是将之前提取到的特征综合起来,用于后续输出计算。

1.3.3 ATTENTION(注意力机制)

注意力机制是模仿人识别物体时的注意力焦点的数学模型。其核心目标是从众多信息中选出对当前任务目标更关键的信息。注意力机制可以通过结构化选取输入的子集,降低数据维度,进而提高计算机处理效率和输出质量,适合于推理多种不同模态数据之间的相互映射关系。

该文提出的弹幕特征发现及情感分析模型研究框架如图1所示。

图1 研究框架示意图

2.1 统计分析

该部分主要功能是用统计分析方法挖掘弹幕文本的自身特征,并利用图表等可视化方式进行结果展示。计算弹幕文本长度和数量的皮尔逊相关指数,分析出二者之间的相关性。将弹幕文本长度和数量之间的皮尔逊相关系数定义为这两个变量之间的协方差和标准差的商:

(1)

通常情况下,通过以下相关系数取值范围(见表1)判断变量的相关强度。

表1 相关关系

将每条弹幕评论文本的长度记为

X

,弹幕数量记为

Y

,按照公式(1)先分别计算两个变量之间的协方差和标准差,二者的比值即为皮尔逊相关指数,对照表1分析两个变量之间的相关强度。综合统计分析结果,得到弹幕文本特征相关结论。

2.2 文本向量化

该部分的目的在于将弹幕文本转化成机器可以处理的数据,该部分得到的结果是后续实验的基础。本模型中词向量表示的数据有两个来源。一是爬取的弹幕实验数据,二是已经标注好的50余万电商(作为预训练的中文语料)评论。为保证结果更精准,选择了Word2Vec中的skip-gram模型。采用One-hot对输入和输出词进行处理,将预处理后的文本数据集中的每条语句描述为

W

={

w

(1),

w

(2),…,

w

(

t

),…,

w

(

n

)},以第

t

个词为中心词,经skip-gram模型处理后,用

V

(

w

(

t

))表示文本数据中心词

w

(

t

),用Content(

w

(

t

))表示中心词

w

(

t

)上下文的词向量,词向量记为(

V

(

w

(

t

)),Content(

w

(

t

)))。skip-gram模型如图2所示。

图2 skip-gram模型

2.3 BILSTM-CNN-ATT模型

该部分是本实验的主体,由BILSTM(双向长短期记忆网络模型)、CNN(卷积神经网络模型)和ATTENTION(注意力机制)组合而成。前模型的输出为后模型的输入,过程中输入输出的维度保持不变。利用BILSTM和CNN充分采集弹幕文本语义全局特征和局部特征,利用注意力机制提取更深层次的特征向量,最后通过softmax层输出。具体如图3所示。

2.4 弹幕情感倾向计算

该部分通过结合数量计算及可视化的方法得到视频中弹幕的情感走向,从而更全面地了解弹幕的情感变化信息。即处在一个区间内的所有正向情感-负向情感的绝对值,再除以该区间的所有弹幕数量。情感计算的公式为:

(2)

其中,

N

为某个时间区间内弹幕的数量。

图3 BILSTM-CNN-ATT模型示意图

3.1 数据来源

文中的数据采集方法为,在bilibili网站以“华为p30”为搜索关键词,以“最多弹幕”、“10-30分钟”、“数码区”为筛选条件,选择排名前100的视频分别对弹幕和视频评论进行爬取。共有弹幕9万2千余条。

3.2 弹幕文本特征

3.2.1 弹幕文本长度特征

随机选取10个视频,统计弹幕长度分布情况(见图4)。实验结果表明视频弹幕的长度具有一致性,多数集中在1~15之间。分布较稳定,且以不多于15字的短文本为主。对弹幕长度和数量进行统计,计算皮尔逊系数为-0.680 981 3,说明弹幕长度和弹幕数量呈负相关关系,即弹幕长度越长,弹幕数量越少。

图4 弹幕长度分布示意图

3.2.2 弹幕文本时间特征

随机选择四个弹幕数量较高的视频,其弹幕在视频中出现的时间如图5所示(注:时间间隔为1秒)。从图中可以观察到,弹幕的出现时间具有阵发性,在标号av-50661583视频中表现尤为显著。

图5 弹幕出现频率示意图

3.3 弹幕文本情感分析

3.3.1 实验数据及预处理

实验数据是将采集到的9万2千余条弹幕数据通过哈工大LTP进行分词,并去除停用词。通过Word2Vec中的skip-gram模式对词进行向量表示。接着使用已经标注好的50余万电商评论构建词向量,挑出其中正向、负向评论各1万余条作为短文本情感分类器的训练语料库。

3.3.2 实验平台

本次实验所使用的计算机配置如下:处理器为英特尔酷睿 CPU i5-8400,CPU频率为2.80 Hz,内存为24.00 GB;
操作系统为Windows 10(64-bit);
程序设计语言为Python 2.8.0。

3.3.3 评价指标

文中采用准确率(precision)、召回率(recall)以及F值作为实验结果好坏的评价指标,具体定义如下:

(3)

(4)

(5)

其中,TP为预测是正面情感,实际也是正面情感的弹幕数量;
FP为预测是正面情感,实际却是负面情感的弹幕数;
FN为预测是负面情感,实际却是正面情感的弹幕数量。

3.3.4 实验结果及分析

文中采用的是在双向循环神经网络和卷积神经网络融合的基础上增加了注意力机制的深度学习情感分析模型。在对数据预处理的前提下,将处理好的弹幕数据输入到训练好的情感分析模型中。为进一步验证该模型的有效性,文中进行了9组对比实验,包括CNN、LSTM、LSTM-CNN、LSTM-ATT、LSTM-CNN-ATT、BI-LSTM、BILSTM-CNN、BILSTM-ATT和BILSTM-CNN-ATT。实验结果如表2所示,包括precision、recall和F值。从表2可以发现,BILSTM适于处理弹幕这种时间序列数据,有效捕捉弹幕的全局特征。CNN模型可弥补局部特征不足的缺陷。在BILSTM-CNN融合模型的基础上引入注意力机制可有效捕捉句子中的词,优化情感分析任务,从而得到更好的实验结果。实验结果表明,基于BILSTM-CNN-ATT的模型可很好地对电子产品评测弹幕进行情感分类。

表2 9种深度学习模型实验结果比较

基于本实验构建的模型和实验数据,以视频av48982400为例,绘制了该视频的情感走向图(见图6)。从图中可以发现,该视频用户弹幕评论整体呈正向情感,在关键节点具有较强烈的负面情感。

图6 弹幕情感倾向示意图

对弹幕做定量研究可得到更客观全面的结论。统计方法可以发现不同变量之间的相关关系。深度学习模型可得到较精准的弹幕评论情感分析结果。该文首先统计了电子产品评测视频的弹幕评论长度,并计算了弹幕长度和弹幕数量之间的皮尔逊指数,实验结果表明这两个变量之间呈负相关关系。接着提出了BILSTM-CNN-ATT情感分析模型,该模型通过BILSTM和CNN充分采集弹幕文本语义全局特征和局部特征,接着利用注意力机制提取更深层次的特征向量。为进一步验证模型有效性,该文进行了9组对比实验,实验结果表明在电子产品评测视频的弹幕评论情感分析任务中,和别的模型相比,该模型可提供更好的支撑。不足之处在于,该方案仅适用于电子产品评测视频的弹幕评论,对于其他类别的弹幕知识挖掘任务效果还不得而知。未来的工作中,可尝试将该方案应用于其他类别的实验数据上,并针对实验结果提出相应的改进方案。

猜你喜欢 弹幕向量神经网络 基于神经网络的船舶电力系统故障诊断方法舰船科学技术(2022年11期)2022-07-15基于人工智能LSTM循环神经网络的学习成绩预测中国教育信息化·高教职教(2022年4期)2022-05-13向量的分解新高考·高一数学(2022年3期)2022-04-28MIV-PSO-BP神经网络用户热负荷预测煤气与热力(2022年2期)2022-03-09脑内弹幕传奇故事(上旬)(2018年7期)2018-10-30搞笑弹幕一箩筐学生天地·小学中高年级(2018年8期)2018-10-11三次样条和二次删除相辅助的WASD神经网络与日本人口预测软件(2017年6期)2017-09-23当四大名著遇上弹幕传奇故事(上旬)(2017年6期)2017-06-17向量垂直在解析几何中的应用高中生学习·高三版(2016年9期)2016-05-14向量五种“变身” 玩转圆锥曲线新高考·高二数学(2015年11期)2015-12-23

Tags: 分析研究   特征   发现  

搜索
网站分类
标签列表