职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于DBSCAN算法的烟草互联网违法数据研究

2023-03-03 10:05:18

汤妙佳,张 勇

(安徽省烟草公司淮南市公司信息中心,淮南 232033)

互联网具有一定的开放性和虚拟性,人们借助互联网交易获得自己所需,这一特点为涉烟违法行为提供了平台和途径。在我国经济日趋良好的静态,烟草市场上的经营者出现良莠不齐的局面,很多经营者并未获得零售许可证等相关资质,通过快递物流等互联网手段进行烟草倒卖假冒卷烟。此行为严重扰乱了市场秩序,减少了国家的税收,情节严重者已违反刑法。因此,加强物流快递中违法犯罪涉烟行为的监管成为当前规范烟草市场的重要任务。自2016年起,积累了大量的物流涉烟违法行为的案件。利用历史数据进行数据挖掘,分析数据中的线索,为现阶段的违法涉烟数据分析提供依据。此论文的主要目的是采用数据挖掘方法[4],着力构建“数据主导侦查,基于分析,决策依托研判”的互联网涉烟犯罪模式。

常用的异常数据监测算法为聚类算法,是基于机器学习领域下的无监督学习,可有效对数据进行分类,让数据“活”起来,实现由传统的人海战术向数据主导的转变。2019年吕飞等[5]运用K-means聚类算法实现了互联网涉烟异常数据的检测。由于K-means 易受异常值影响,本文采用的数据分类方法为基于密度方法的

DBSCAN。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。算法的主要目标是相比基于划分的聚类方法和层次聚类方法,需要更少的领域知识来确定输入参数;
发现任意形状的聚簇;
在大规模数据库上更好的效率[6-9]。DBSCAN 算法的主要优点在于能够将足够高密度的区域划分成簇,并且能够抵抗噪声干扰,在具有噪声的空间数据库中也能够发现任意形状的簇。算法的核心思想是确定一个核心点,从核心点出发向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连[10]。在DBSCAN 算法中,数据点可分为三类,如图1所示。

图1 数据点分类

(1)核心点:若样本xi的a领域内至少包含MinPts个样本,即称样本点xi为核心点。

(2)边界点:若样本点xi的领域范围内包含的样本数目小于MinPts,但是它在其他核心点的领域内,则称样本点xi为边界点。

(3)噪音点:既不是核心点也不是边界点。

DBSCAN的具体流程为:

输入:样本集D={x1,x2,…,xn},领域参数(a,MinPts),样本距离度量方式。

输出:簇划分C={C1,C2,…,Ck}。

①初始化核心点集合Ω=∅,初始化聚类簇数k=0,初始化为访问集合Γ=D,簇划分C=∅。

②对于i=1,2,…,n,按照下面步骤找出所有的核心点:

(a)通过距离度量方式,找到样本xi的a领域子样本集N(ax)i;

(b)如果子样本集样本个数满足|Na(xi) |≥MinPts,将样本xi加入核心点集合:Ω=Ω⋃{xi};
(c)如果核心点集合Ω=∅,结束;
否则,转入步骤(d);

(d)在核心点集合Ω中,随机选择一个核心点o,初始化当前簇核心点队列Ωcur={o} ,初始化类别序号k=k+1,初始化当前簇样本集合Ck={o} ,更新为访问样本集合Γ=Γ-{o} ;

(e)如果当前核心点队列Ωcur=∅,则当前簇Ck生成完毕,更新划分簇C={C1,C2,…,Ck},更新核心点集合Ω=Ω-Ck;

(f) 在当前簇核心点队列Ωcur中取出一个核心点o",通过领域阈值找出所有的领域子样本集Na(o"),使Δ=Na(o") ⋂Γ,更新当前簇样本集合Ck=Ck⋃Δ,更新访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur⋃(Δ ⋂Ω)-{o"} ,转入步骤(e)。

为了验证DBSCAN 算法在实际违法犯罪区域划分中的应用,本节首先模拟烟草涉案数据1000 组,具体内容见表1,将其GIS 坐标信息进行分类,效果如图2所示。实验使用的编程语言为Python 3.6,硬件平台配置为:Intel i5-9600kf CPU,Nvidia TITAN V(12 GB/Nvidia)GPU,16 G DDR4 RAM。

表1 涉案烟草数据表结构

假设模拟数据如图2(a)所示,图中不同密度区分明显。运用DBSCAN 算法后,其分类结果如图2(b)所示,图中很好地将数据进行了分类,表明DBSCAN 的有效性。同时,为了进一步模拟涉烟案件数据,减小数据的特殊性,如图3所示。从图3分类结果可以看出,不同密度区域可以被很好划分,可有效划分不同区域找出其中心点,对实际案件进行指导。

图2 涉烟案件数据模拟1(不同形状代表不同类)

图3 涉烟数据模拟2(不同形状代表不同类)

前述部分为模拟实验,不能完全模拟实际涉烟数据的复杂性,因此选取H 市烟草专卖局部分物流寄递案件数据进行实验,以验证此算法的应用可行性。对于每件物流涉烟案件,系统记录数据包含收发货地址以及对应的经纬度。从数据库中随机选取500 起H 市烟草专卖局2017年查获的物流涉烟案件数据样本,提取了案件的GIS 坐标信息(由于涉密,进行了数据标准化),绘制散点图进行分类后结果如图4所示。图4中,根据密度一共划分为六簇,从图4可以看到,此算法在实际应用中能够分离条状及圆形区域的簇,可从复杂的分布中识别出案件高发的区域,挖掘其内部信息。在此区域内,涉案区域皆被划分成六个区域,可为重点排查这六个区域的中心区域作指导。

图4 涉烟案件数据分类结果

本文利用DBSCAN 算法对互联网涉烟数据进行了分类,模拟了涉烟数据地点分布散点图,实验表明了DBSCAN 算法划分涉烟案件区域的有效性。为了进一步验证此算法在实际案件中的应用性,提取H 市的500 起涉烟数据进行分类,由图4所示结果可以看出,经过DBSCAN算法划分后,可对发件地址及收件地址异常区域进行划分,找出案件高发的中心点。在实际侦查时,便可重点排查此区域,减少侦查时间,减少人力物力投入,充分发挥信息技术的作用。

总而言之,互联网具有一定的特殊性,基于互联网的犯罪行为在监管追查上难度较大。但是,可以利用互联网的优势,对以往收集到的信息进行数据挖掘,做好数据信息的分析工作,便可捕捉到关键信息。

猜你喜欢 边界点聚类案件 一起放火案件的调查:火灾案件中的“神秘来电”水上消防(2021年4期)2021-11-05“左脚丢鞋”案件学生天地(2020年2期)2020-08-25基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08区分平面中点集的内点、边界点、聚点、孤立点考试周刊(2018年74期)2018-08-20基于降维数据边界点曲率的变电站设备识别郑州大学学报(工学版)(2017年2期)2017-05-18基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26多阈值提取平面点云边界点的方法计算机应用(2016年7期)2016-07-19HD Monitor在泉厦高速抛洒物案件中的应用中国交通信息化(2016年10期)2016-06-08基于Spark平台的K-means聚类算法改进及并行化实现互联网天地(2016年1期)2016-05-04基于改进的遗传算法的模糊聚类算法智能系统学报(2015年4期)2015-12-27

Tags: 互联网   算法   烟草  

搜索
网站分类
标签列表