首页 > 心得体会 > 学习材料 / 正文

基于多任务学习的文本信息关联性抽取仿真

2023-05-08 15:25:21 ℃

赵金币，琚理

(华北理工大学，河北唐山 063000)

多任务学习属于经典机器学习中的一个重要环节[1]，在海量数据的影响下，机器学习内的隐藏层需要处理大量数据，来获取准确的神经网络的运行参数[2]。此时，多任务学习能够获取多种学习任务内的有用信息并缓解文本信息稀疏的问题。随着数字化医疗平台的完善，数字化的医疗平台成为了当下医院管理工作的处理工具[3]。将医院内使用的局域网作为信息采集的内网结构，整理数字化的文本为信息空间，按照空间内表现的信息属性，实现医院内网信息的管控。仿真医院内网内的文本信息关联性抽取过程[4]，能够帮助内网中的信息衍生出多种关联信息，并分析文本信息之间的影响关系。为此，将多任务学习作为技术支持，针对医院内网中的文本信息，构建信息关联性抽取方法。

在计算机技术的发展下，医疗信息数据化处理技术成为了数字化的研究热点。国外研究人员利用深度学习中的处理工具，设计了在线医疗信息抽取技术，并设定关联属性，利用计算机内的层次估计[5]，实现信息关联性抽取。国内研究人员以医院内网中的文本数据作为处理对象，按照数据的特定性、需求、事实属性，处理为结构化的文本信息，按照其动态的抽取过程，实现抽取过程。文献[6]提出了基于深度学习的关联性抽取方法。该方法标定文本信息内的蕴含关系，并标记文本信息中的关联信息源，按照蕴含关系最终实现对信息关联性的抽取。文献[7]提出基于知识图谱的关联性抽取方法。采用知识图谱和先验算法建立文本信息的关联信息，构建决策树模型，按照关联属性来实现抽取。

经过阶段性的仿真应用可知，现有的关联性抽取方法实际关联性抽取的次数较少，由此可知，研究基于多任务学习的文本信息关联性抽取过程具有发展意义。

2.1 抽取文本信息实体关系

调用文本运行架构内的信息线性层，采用解码模块输出文本信息内逻辑标签[8]，并将解码模块内的链接输出为点积形式，处理过程可表示为

Opt=L(x+A(x))=L(OpA+FN(Opt))

(1)

式中，Opt表示输出的点积函数，L表示文本信息的线性处理函数，A(x)表示注意力层内的解码函数，OpA表示文本信息的屏蔽权重，FN(Opt)表示输出点积信息放缩处理函数。按照文本信息实际的查询频率，按照文本信息之间的注意力机制[9]，设置信息查询的点乘参数，按照注意力系数表示文本信息，表示处理过程可表示为

(2)

式中，Q表示文本信息被查询的次数，K表示文本信息的线性变换参数，s表示设置的缩放因子，KT表示多维度下的线性变换参数，dk表示文本信息的维度参数，其余参数保持原有含义不变。按照多注意力机制的要求[10]，将上述处理的文本信息映射处理，处理过程可表示为

(3)

2.2 搭建多任务学习的关联框架

在上述构建的映射关系内，采用数据采集器获取映射关系内的医疗文本，使用分词工具将医院内网文档标记为在线文本以及临床文本的形式，标记处理过程可表示为

(4)

式中，k为标记参数，X表示映射处理后的文本信息，Y表示未参加映射处理的文本信息，C表示线性特征维参数。标记文本形式后，按照分词分析的过程，结合中文分词工具，确定文本信息中属性词性词频的基本参数[11]，并调用统计分析工具，将多属性词性的文本信息处理统计分析过程处理为多任务学习过程，处理过程可表示为

(5)

上述数值关系中，ρ(u，v)表示多任务处理函数，αT表示多任务关联系数，Kx表示文本信息的协方差，Ky表示文本信息的相关性方差参数。按照上述文本信息的特性，构建多任务学习的关联框架，框架如图1所示。

按照图1构建的关联框架结构，整理最终框架输出的关联结构文本特征[12]。根据实际输出的关联结构文本特征，仿真文本信息的关联性抽取过程。

图1 多任务学习的关联框架

2.3 关联性抽取

整理上述多任务学习关联框架输出的文本信息特征，将多任务处理进程默认为并行的任务调度[13]，并标记不同属性文本信息为不同的序号，以关联性抽取的时间序列将抽取过程处理为仿真编码，仿真任务编码可表示为

(6)

式中，Tp表示构建的仿真编码矩阵，tr1表示第r个仿真任务完成编码的次数。为了控制仿真编码导致的资源占用，结合搭建框架内多任务学习串行的时间[14]，按照文本信息的适应度，设置关联性抽取的加速比，数值关系可表示为

(7)

式中，S表示设置的仿真编码加速比参数，τi表示仿真任务分配函数，Cmax表示最大仿真编码时间。按照上述数值关系控制文本信息的仿真编码过程，控制单次抽取任务均衡后[15]，最终完成对文本信息关联性抽取。

3.1 搭建仿真平台

仿真平台选定CPU运行参数为Intel Core i7-7700HQ的上位机，内置8GB的RAM，并运行MATLAB2016b作为各项仿真参数支持，按照医院内网的运行要求，在医学检验科室与临床预测之间，设置搜索匹配模块，抽取医院内的文本信息，设置的抽取框架如图2所示。

按照3图所示的信息抽取框架，使用搜索匹配模块抽取医院内网中的文本信息，并将内网内的知识图谱的节点匹配为管理信息，输出的文本类型以及属性参数如表1所示。

图2 医院文本信息抽取框架

表1 输出的医院内网的文本文档信息

整理表1所示的文本文档信息，按照医疗文本的实体属性关系，构建标准化的语料库，并以该语料库作为文本信息，初始化处理仿真平台后，按照医院内网文本信息构建文本信息之间的关联性。

3.2 关联处理医院内网信息

调用仿真平台内的文本编码层，采用预训练模型初始化语料库内的文本信息，并按照文本编码层的要求，将连接层内的激活函数作为关联处理关系，根据文本数据之间的梯度饱和，均匀处理医院内网的文本信息，处理过程可表示为

(8)

式中，W表示编码连接层内的权重参数，U表示抽取的医院内网数据集，R表示初始化参数，m表示数据连接效率系数，n表示梯度累加参数。均匀处理后，按照单项测试项初始化消耗的时间，限定测试项的优先级，优先级限定处理可表示为

(9)

上述数值关系中，tn表示限定测试的优先参数。按照设定的限定测试项，最大化处理文本信息之间的属性关系，数值关系可表示为

(10)

上述数值关系中，L(y)表示最大化处理函数，Dr表示文本信息内的属性层，其余参数保持原有含义不变。将不同属性输出为关联信息树结构，每个树结构内置一个关联学习组合，控制文本信息的属性扰动为固定，按照自动关联形成的子属性，处理为属性选择过程，将选择输出的各项文本信息数据作为具有关联性的文本信息。准备基于深度学习的关联性抽取方法、基于知识图谱的关联性抽取方法以及设计的关联性抽取方法参与测试，对比三项仿真处理过程的性能。

3.3 资源占用测试

在上述搭建的仿真平台内，将医院内网内的文本信息处理为具有关联性的关系后，控制三种关联性抽取方法并行处理上述构建的自动关联处理过程，默认该处理过程为信息的抽取测试项，并根据文本信息关联方差，确定关联文本信息抽取产生的资源占用，资源占用数值关系可表示为

(11)

式中，κ表示关联性任务占用参数，Ti表示资源均衡参数，Tm表示并行运行参数，n表示并行仿真过程参与的数量。控制三种抽取方法仿真并行运行30组关联文本信息数据，方法在相同仿真平台内产生的资源占用如图3所示：

将准备的30组文本信息均匀处理为6组后，调用仿真平台上位机的任务管理器，分别整理三种抽取方法在并行运行抽取任务时产生的资源占用。由图3所示的资源占用结果可知，以并行运行数量30组作为最终仿真对比，基于深度学习的关联性抽取方法产生的资源占用为470M，该种关联性抽取方法在抽取时产生的资源占用最大。基于知识图谱的关联性抽取方法产生的资源占用为360M，该种抽取方法仿真处理占用的资源较小。所设计的关联性抽取方法在并行运行30组关联性信息时，占据的资源为160M，与两种参与测试的抽取方法相比，设计的关联性抽取方法运行过程中占据的资源最少。

图3 资源占用结果

3.4 仿真消耗时间结果

按照上述仿真处理产生的资源占用数值，采用标准正态分布取多个随机数，并标定一次关联性抽取所产生的偏差，对应设定三种抽取的变化区间，并预先训练类别内的关联性词向量，输出仿真结束时的向量平均值，数值关系可表示为

(12)

上述数值关系中，c表示抽取关联性信息词向量的平均值，vi表示不同仿真方法的仿真速度，wi表示关联性抽取参数。调用仿真平台，定义当仿真代码任务出现上述参数后，则表示该种关联性抽取完成一次关联性关系抽取，固定三种关联性抽取方法仿真运行十组任务，统计抽取的时间，仿真所消耗的时间结果如图4所示。

控制三种抽取方法同时仿真运行十组关联信息组，定义每仿真两组信息组为一个时间统计节点，统计仿真运行过程中所消耗的时间，以消耗的仿真平均时间作为最终测试结果，基于深度学习的关联性抽取方法消耗的仿真时间在26min左右，该种抽取方法消耗的仿真时间较长，基于知识图谱的关联性抽取方法小号的仿真时间在33min，该种仿真方法消耗的仿真时间最长。而设计的关联性抽取方法消耗的仿真时间在12min左右，与两种参与测试的仿真方法相比，设计的仿真方法仿真处理时消耗的时间最短。

图4 三种抽取方法的耗时

3.5 抽取次数结果

选定上述仿真操作组内的10组抽取信息，调用数据关联性处理过程，并使用计算式(8)筛选文本信息中的关联，按照关联系数，整理文本信息内关联性组，共计20组，在相同的仿真时间下，以输出仿真向量作为抽取次数的截止标识，统计仿真平台最终输出的抽取次数结果，结果如图5所示。

按照上述定义的抽取标识，整理在相同仿真平台下三种关联性抽取方法处理20组关联性信息组时的抽取次数，根据图5所示的抽取次数结果，基于深度学习在仿真20组关联性信息组时，实际产生的抽取次数为12次，仿真处理次数较多，消耗仿真平台进程较多。基于知识图谱的关联性抽取方法产生的抽取次数为16次，该种关联性抽取方法占据的仿真进程最多。而设计的关联性抽取方法在相同数量的仿真组下，实际产生的抽取次数为6次，仿真处理占据仿真平台进程较少，应用效果最佳。

图5 三种抽取方法的抽取次数

随着文本信息处理技术的发展，关联性抽取过程能够分析文本信息关联性处理与其影响关系，因此本研究以多任务学习作为技术支持，设计文本关联性抽取方法。经过仿真测试可知，所设计方法能够改善文本抽取次数过少的不足。

猜你喜欢多任务关联性关联不惧于新，不困于形——一道函数“关联”题的剖析与拓展新世纪智能(数学备考)(2021年9期)2021-11-24“一带一路”递进，关联民生更紧当代陕西(2019年15期)2019-09-02基于中心化自动加权多任务学习的早期轻度认知障碍诊断中国生物医学工程学报(2019年6期)2019-07-16奇趣搭配学苑创造·A版(2018年11期)2018-02-01四物汤有效成分的关联性分析中成药(2017年3期)2017-05-17智趣读者(2017年5期)2017-02-15如何准确认定排污行为和环境损害之间的关联性中国环境监察(2016年12期)2016-10-24基于判别性局部联合稀疏模型的多任务跟踪自动化学报(2016年3期)2016-08-23基于多任务异步处理的电力系统序网络拓扑分析电测与仪表(2016年5期)2016-04-22CRP检测与新生儿感染的关联性中国卫生标准管理(2015年6期)2016-01-14

Tags：关联性抽取仿真

上一篇：调湿材料及其应用于辐射供冷防结露中的研究现状与展望
下一篇：隐私信息泄露属性深度跟踪方法仿真