职场文秘网

首页 > 心得体会 > 学习材料 / 正文

多层级地址语义模型构建及其在疫情防控中的应用

2023-02-01 20:45:06

尹向军,陈 阵,张俊磊,崔立新,赵 伟,黄华月

(1.南京市城市规划编制研究中心,江苏 南京 210029; 2.丰图科技(深圳)有限公司,广东 深圳 518000;
3.察布查尔县住房和城乡建设局,新疆 伊犁 835300)

时空大数据建设是新型智慧城市的一项基础性工作,基于精准地址的地理基座是时空大数据建设工作最核心的内容之一。当前,城市各部门汇集了大量的地址数据,包括测绘部门采集的大量“所见即所得”地址数据、民政部门开展的第二次地名普查数据、公安部门发放的门楼牌地址。此外,水、电、气等部门建立了专项地址数据库,互联网公司基于快递服务迅速获取了大量用户语义地址数据。这充分体现了地址信息对各行业管理工作的重要性,但也从侧面反映出地址工作呈现多头管理和建设局面。在数字城市阶段,没有从地理实体源头考虑,且在没有确定地理实体颗粒度的前提下进行的地址建设无法实现地址数据集约共建和统一共享。

本文面向以应用为导向的精细化管理需求,强化地址标准化管理,建立统一的多层级地址语义模型和地址唯一编码。集中开展地址清理采集工作,有效解决地址“重、错、漏”的问题,实行地址新增、变更、停用、注销全周期统一管理。将各类政务数据、社会企业数据进行标准化治理,提取地址信息,并与统一标准地址库进行关联融合,形成地址资源库,最终将地址资源库地址精确到栋或单元的地理实体,构建智慧城市的统一地理基座,进而全面支撑智慧城市的建设、运营、管理及应用。

地址的重要性在于其广泛的用户群,包括政府、公众、组织和商业行为,城市地址模型要充分地顾及公众对城市空间结构的认知规律,并结合城市规划的特点,构建易于形成公众城市空间结构知识的地址模型[1]。地址本质上是一组空间地址元素,按照一种地址表示结构组合在一起的字符串。地址模型旨在尽可能完整地把人类在生产生活中对空间位置的描述细化成地理实体颗粒语言,并实现准确定位。多层级地址模型(如图1所示)通过地理实体、地址元素、地址3个层次表达。地址元素是地址的组成部分,一个地址元素会参与多条地址的组成,多个地址元素组合形成地址。通过元素识别,把地址中蕴含的地址元素及地址表示结构抽取出来,用于融合、关联、标准化处理。建立地址主体元素和行政区划、标签及主体内部元素之间的上下级关系,标准的地址元素按一定规则、次序排列形成标准地址。

通过对地址的多层级语义解析,结合地址数据现状,对多源地址数据进行标准化融合处理,实现存量地址数据的描述标准化治理,建立地址语义库,输出为规范的统一标准地址库[2]。建设流程(如图2所示)主要包括数据预处理、数据检查、数据修复、数据融合及数据标准化处理等。

2.1 数据预处理

首先需要解析原始地址数据的格式,根据相关业务说明抽取地址相关字段并转化为内部统一地址规格,建立原始地址和内部地址的关联关系。根据数据预处理情况,进行数据的补充和选取,以提高标准地址库的覆盖率,对数据中不规范地址进行标准化和文本排重处理,保证各类地址记录的唯一性。

2.2 数据检查

数据预处理完成后,需要进行数据检查,识别和挑选出无效地址和垃圾地址,明确数据的走向,减少后续工作流程中的关联及标准化错误,提升数据关联和标准化指标。数据检查要确保数据的完整性,避免错漏异议记录入库,根据入库信息正确识别层级关系并将错误类型进行分类标识,便于后续数据的修复。

2.3 数据修复

数据修复使得地址结构完整且正常,不同类别的错误有不同的修复手段,如正则表达式、文本替换等,对于无法确定的通过标记的方式,进行逐一确认。

2.4 数据标准化

地址数据标准化处理主要包括要素标准化、标准化检查、标准化入库。对每个地址元素,都有一个标准的名称,从收集的所有名称中,根据来源频次和对名称结构的评估,选出最标准的名称。对现实世界的每一个地物,都赋予一个标准地址。对每一个要素,都有一个标准地址结构。在地址结构的要求下,借助标准要素关系,填充最标准的要素名称。

2.5 数据融合

数据融合一方面进行同名聚合,将主体元素同名的数据聚合,聚合半径设定为固定值,通过完全匹配、标签检查、距离校验等,将聚合半径范围内的地址数据按照主体元素聚合分组。另一方面进行语义聚合,即主体元素相似的数据聚合,聚合半径设置为更大范围的固定值,通过相似度匹配、标签检查、距离校验等将聚合半径范围内的语义地址进行语义聚合分组,形成语义聚合压缩后的统一地址。

地址数据是地理实体这一核心要素的一类重要信息,所有的地址数据都是围绕地理实体这一核心要素。地址是地理实体位置的结构化描述,地理实体空间位置的表达[3]。地理实体的“址”必须依托于一个客观存在的地理实体,依据与不同层次等级的颗粒度建立通用的地址数据库,要对地理实体进行分类梳理,根据整理所得的地理实体分类分级体系开展其地址数据的采集、整合、建库工作。地址数据的产生、管理、维护和应用其实质就是对地理实体这一核心的认识、理解、分类、编码、空间定位与管理的问题。

地址与地理实体通过空间关联和文本关联等技术手段,实现地址编码与地理实体编码的一一对应。

3.1 空间关联

地址与地理实体的空间关联(如图3所示)是通过地址点数据坐标属性值和楼栋数据区域属性值进行叠加分析,检查点面之间的包含关系,并建立唯一编码关联关系。

图3 空间数据关联方法

3.2 文本关联

地址与地理实体的文本关联方案是对空间关联方案的补充。对空间关联不上或空间关联质量不达标的数据进行文本关联,主要有两种形式。

一是基于缓冲区的文本关联(如图4所示):在点数据一定缓冲区范围内,通过分词算法提取点数据和楼栋面数据的要素名称,通过完全匹配算法、相似度算法进行文本匹配关联。

图4 缓冲区文本关联方法

二是基于归一化的文本关联(如图5所示):将面数据转成点数据格式,然后对点数据进行标准化处理,利用归一化后的成果进行关联。

图5 归一化文本关联方法

3.3 关联成果

本次试验范围为江苏省南京市鼓楼、建邺、秦淮、玄武、栖霞、雨花及江北新区共计千余平方千米,基于公安门楼址、调查采集及商业地址共计20余万条记录,开展了数据清洗和关联,建立了标准地址楼栋或单元级的地理实体自动关联(如图6所示)。关联结果显示标准地址与建筑物实体整体准确率在90%以上,尤其新建、规整建筑物实体数据关联准确率达到100%。基于多层级地址语义模型构建的多源地址数据建库关联技术,较传统调查采集方法具有工作效率高和错误率低的优势,全面提升了数据成果规格的准确率,明显改善了社会治理和管理的能力。

图6 地址和地理实体关联

由于现实世界中超过80%的数据与地理位置相关,地理位置主要通过空间坐标和语义描述进行地址表达[4],地址成为包括面向疫情防控在内的很多大数据应用和服务的基础。借助于地理搜索、智能输入提示、地理编码、逆地理编码及数据关联等地址服务,可以实现“以地址找房、以房找人、以人找企业”等实际应用。地址数据在疫情防控中的应用主要体现在疫情监测和疫情信息服务方面。在COVID-19疫情中,地址数据为公共疫情防控提供了疫情统计、病例分布情况查询等服务。利用户籍地址、企业注册地址与标准地址的匹配服务,可协助疫情精准防控和社会复工复产。

4.1 疫情统计

疫情的监测可以帮助卫生防控部门及时了解疫情扩散的状态及各地区疫情的严重程度,协助使其更加合理地部署和协调医疗资源,帮助公众了解周边的感染源分布情况,采取远离感染者、居家隔离等方式进行科学的预防感染。基于统一的地址服务,可以统计公共疫情分布情况,如图7所示。

图7 疫情统计分布

4.2 疫情防控

基于标准地址的建筑物实体可实现人、房、组织、事件、部件有效融合、自动综合和关联聚类,将确诊、疑似病人与社会管理资源池进行比对,获取人口实际居住情况(如图8所示)。通过地址匹配进行空间定位,快速实现人员的网格化管理,以此进行密切接触人员的监管,并分析疫情传播规律及公共设施对疫情传播造成的影响。

图8 人口数据地址关联应用

4.3 企业复工

在企业复工阶段,通过工商地址与标准地址的快速匹配,将企业名称落实到楼宇位置上(如图9所示),能够随时随地查看企业复工信息,实现载体、楼宇、企业人口规模信息的动态维护,为企业复工、疫情防控及医疗资源配备提供全面的管理和支撑。

图9 企业数据房屋关联应用

标准地址匹配技术在此次疫情防控过程中为各政府管理部门提供了统一的地址匹配与地图定位服务,随着智慧城市建设的深入,地址服务尤其在政府宏观决策、城市规划与建设、城市管理与公共安全方面具有广阔的应用场景和社会价值。

在数字城市阶段,地理信息数据服务方式主要是背景图。随着智慧城市建设的推进和深入,用户逐渐对地理实体应用需求更加关注,通过生产统一的地理基座,构建全面的、以地址为视角的城市画像,极大地改善了目前普遍存在的部门业务数据难以应用的现状,同时有助于面向各政府部门实现统一的地址匹配与地理实体定位服务。基于多层级地址语义模型构建的地理实体库,在楼栋及单元级地址应用中取得了显著的效果,但随着城市治理进一步精细化,对于非建筑类地理实体,如模糊的语义地址,某小区快递柜、某条道路路灯等,及在应急保障上需求也日渐急迫,未来需进一步构建精细化的地理实体细分类,建立地址和地理实体动态协同更新的机制,全面推进智慧城市的建设。

猜你喜欢 关联语义实体 真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31“一带一路”递进,关联民生更紧当代陕西(2019年15期)2019-09-02实体书店步入复兴期?当代陕西(2019年5期)2019-03-212017实体经济领军者21世纪商业评论(2018年3期)2018-03-02奇趣搭配学苑创造·A版(2018年11期)2018-02-01两会进行时:紧扣实体经济“钉钉子”领导决策信息(2017年9期)2017-05-04振兴实体经济地方如何“钉钉子”领导决策信息(2017年9期)2017-05-04智趣读者(2017年5期)2017-02-15“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27

Tags: 语义   疫情   多层  

搜索
网站分类
标签列表