职场文秘网

首页 > 心得体会 > 学习材料 / 正文

一种多维度微博用户影响力改进算法*

2023-03-03 10:00:16

李玮新,李 锐,洪伟彬

(上海理工大学光电信息与计算机工程学院,上海 200093)

随着互联网技术的发展,人们对线上社交的需求越来越高。微博凭借其平台开放性、终端拓展性、内容简洁性和低门槛等特性,逐渐成为了一个重要的社会化媒体[1]。研究社交网络中的用户影响力不仅能度量社会影响力的大小,还能对减少垃圾营销、挖掘资深用户、相关用户推荐等应用做出一些改进[2]。

对微博用户影响力的评估等相关研究一直都是一个比较热门的领域。谭琪等人[3]构造了一种融入结构度中心性的用户影响力评估算法SDRank。王利等人[4]提出了基于Swarm 突现计算模型的用户影响力排序算法。王顶等人[4]采用权重因子将用户粉丝对用户影响力的贡献值进行分配。师亚凯等人[6]、马俊等人[7]、张绍武等人[8]和贾冲冲等人[9]则分别从不同的角度提出了用户影响力的计算模型和排序方法。但是上述算法有的考虑的因素相对单一,有的则不能较好适应当前社交网络出现的一些新变化如“粉丝经济”、微博营销等。本文从用户自身的影响力和传播影响力两方面,综合计算了微博用户的影响力。

PageRank 算法[10]是由Google 创始人Lary Page和Sergey Brin 提出的链接分析算法,是用来衡量网页好坏的重要标准。PageRank 算法结合网页的入链数量和网页的质量来衡量网页的重要性。而微博中用户间的关注关系可以类比PageRank 算法中网页的链接关系,因此PageRank算法很适合用来进行微博用户影响力的分析。常见的算法如Twitterank[11]、MDIR[12]、BWPR[13]以及加入用户权重的用户影响力算法[14]。但是这些算法有的只关注用户自身属性对其影响力的贡献;
有的研究的用户自身属性的维度过少,未考虑到用户认证情况、粉丝数等其他重要因素。

2.1 算法的提出

在PageRank 算法中,每个网页的初始PR 值是相同的,每个网页的出链的PR 值也是平均分配的,而微博用户的影响力往往会因为其认证情况、粉丝数等产生差异,所以在评估微博用户影响力时不仅要考虑用户的链接关系,还要综合用户的自身属性和用户微博的传播能力。

本文从上述两个方面综合考虑微博用户的影响力,提出一种基于用户自身影响力和传播影响力的BPPI 算法(Based on users" Personal and Propagating Influence),用用户的自身影响力代替PageRank 算法中平均分配的初始影响力,解决了PageRank算法中每个网页初始PR值相同的情况,排除了用户僵尸粉对影响力的干扰;
也对其他类似算法所存在的问题进行了改进。对传播影响力的评估可以解决PageRank 算法中网页出链的PR值平均分配的问题,相比其他类似的算法可以较大地提高用户影响力评价的准确度。

2.2 构建微博传播网络的结构

本文根据微博用户间的关注关系,构建微博的传播网络。设微博传播网络为G(V,E),G是一有向图;
V 是该网络中点的集合,代表微博用户的集合;
E 是该网络中边的集合,代表微博用户间的关注关系,当用户u 关注了用户v,则会有一条有向边从代表u 的节点指向代表v的节点。

2.3 自身影响力

微博用户往往会直观地根据用户的一些属性来判断其影响力。基于此,可以参照这些属性,来评估用户的自身影响力,自身影响力包括用户认证情况、活跃粉丝数、活跃度以及关注度四个属性。

⑴认证情况

现给出用户认证情况的计算公式:

其中,auth(u)指用户u的认证情况。

⑵活跃粉丝数

活跃粉丝数指近一个月内对用户的微博有点赞、评论、转发的行为的粉丝数量。

⑶活跃度

活跃度反映了用户一个月内的活跃程度。现给出活跃度的计算公式:

其中,liveness(u)指用户u的活跃度,blog(u)指用户u在一个月内发布的微博数量,allblogs指一个月内所有微博用户发微博的数量。

⑷关注度

关注度指用户微博获得的点赞、评论和转发的相对数量。现给出关注度的计算公式:

其中,atten(u)指用户u 的关注度,like(bi),comm(bi),repo(bi)分别指用户u的第i条微博获得的点赞数、评论数和转发数,fans(u)是用户u 的粉丝数,B 是用户u 发布的所有微博的集合。

综合上述四个因素,最终得出自身影响力的计算公式:

其中,personal_influ(u)是用户u 的自身影响力值,auth(u)是用户u 的认证情况,activefans(u)是用户u 的活跃粉丝数,liveness(u)是用户u的活跃度,atten(u)是用户u的关注度。

2.4 传播影响力

传播影响力由用户v 对用户u 的互动情况,包括对用户u微博的点赞、评论、转发的频率决定。现给出传播影响力的计算公式:

其中,propagating_influ(u,v)指用户v 对用户u 的传播影响力;
like(u,v)、comm(u,v)、repo(u,v)分别表示用户v 对用户u 的微博的点赞数、评论数和转发数;
blog(u)指用户u发布微博的总数。

根据传播影响力的公式(式⑸),可以得到传播影响力比例的计算公式:

其中,prop_r(u,v)指用户v对用户u的传播影响力比例,follow(v)指用户v关注的用户集合,propagating_influ(u,v)指用户v对用户u的传播影响力。

2.5 BPPI算法的描述

BPPI 算法从用户的自身影响力和传播影响力两个方面描述了用户的影响力。算法的过程是:根据用户数据构建出微博传播网络图,依次计算图中每一个用户的影响力:先计算用户的自身影响力作为影响力的初值,再依次对每一个粉丝计算传播影响力的比例,得出的影响力值和上一轮的影响力作对比,如果差值小于阈值,则退出循环,得到最终的影响力值,否则继续计算。

现给出BPPI算法的计算公式:

其中,BPPI(u)指任一微博用户u的影响力值,fans(u)指用户u 的粉丝集,prop_r(u,v)指用户v 对用户u 的传播影响力比例,q为阻尼系数。

BPPI算法的主要计算过程如下:

3.1 数据的收集与处理

本文以新浪微博作为数据源,爬取了2021 年10月-12月某一特定领域的部分用户的信息。

因为爬取到的数据过于冗杂,为方便后续计算,现在排除掉粉丝数小于100 和发博数小于50 的用户信息。处理过的数据信息如表1。

表1 微博数据信息

3.2 算法结果与分析

本文将处理过的数据分别用BPPI算法、BWPR 算法和PageRank算法进行计算,得到影响力前十名的用户,并和该领域10月的新浪微博V 影响力榜以及粉丝量排名作对比,结果如表2。表2的用户编号和id对应情况如表3所示。

表2 2021年10月各模型下的影响力前十名用户编号

表3 表2的各用户编号和id情况

根据表2 可以看出,粉丝数量、PageRank 算法、BWPR算法都与V影响力榜的排名差距较大。为了得到更直观、严谨的判断,本文采用斯皮尔曼等级相关[15]来对上述模型进行相关性分析。以月为统计周期,选取30 名用户在2021 年10 月、11 月、12 月三个月的数据,计算了V 影响力榜分别和粉丝数量、BPPI 算法、BWPR 算法、PageRank 算法四种排名下的斯皮尔曼等级相关系数。得到的结果如图1所示。

图1 V影响力榜和其他模型排名的相关性

根据图1,由粉丝数量衡量一个微博用户的影响力是不可靠的,因为很多大V博主会“购买粉丝”,但是这样只是增加了粉丝数量,微博的点赞、评论、转发数量并不会增加,这就导致这一衡量标准会出现较大的误差。PageRank 算法由于初始PR 值和传递PR 值分配不合理的问题,导致与V 影响力榜的偏差较大。BWPR 算法只重点关注了用户的互动行为,没有考虑用户的其他基本属性。而BPPI 算法综合考虑了上述因素,与V 影响力榜的斯皮尔曼等级相关系数是最接近1的,所以BPPI算法较为准确。

本文提出了基于PageRank 算法的微博用户影响力评估算法BPPI。BPPI 算法通过综合用户的认证情况、活跃粉丝数、活跃度和获得的关注度来计算用户的自身影响力,解决了PageRank算法中每个网页的初始PR 值相同的问题;
通过其他用户与该用户点赞、评论和转发三种互动的行为来衡量用户的传播影响力,结合这两种影响力得出了最终的用户影响力。本文在真实的数据集上对V 影响力榜、粉丝数量、BWPR算法、PageRank 算法和BPPI 算法五种模型进行研究,结果表明BPPI 算法是最接近新浪微博给出的V 影响力榜的,这说明BPPI算法能够较为准确地评估用户的影响力。

猜你喜欢 关注度计算公式网页 电机温升计算公式的推导和应用防爆电机(2022年4期)2022-08-17基于HTML5与CSS3的网页设计技术研究成都信息工程大学学报(2021年6期)2021-02-122019离职补偿金计算公式一览表中国眼镜科技杂志(2019年9期)2019-11-11基于CSS的网页导航栏的设计电子制作(2018年10期)2018-08-04基于HTML5静态网页设计魅力中国(2018年5期)2018-07-30谈拟柱体的体积高中生学习·高二版(2017年9期)2017-10-25雄安新区媒体关注度领导决策信息(2017年15期)2017-06-22全国两会媒体关注度领导决策信息(2017年11期)2017-05-17基于URL和网页类型的网页信息采集研究电子制作(2017年2期)2017-05-17暴力老妈小雪花·成长指南(2016年11期)2016-12-07

Tags: 多维   算法   影响力  

搜索
网站分类
标签列表