首页 > 心得体会 > 学习材料 / 正文

基于组合预测模型的疫情确诊人数预测

2023-02-09 16:55:08 ℃

庞梦吟，王海宁，万通明，马苗,2*

(1.陕西师范大学计算机科学学院，陕西西安 710119;2.空天地海一体化大数据应用技术国家工程实验室，陕西西安 710129)

公共卫生安全事件常常是牵动着一个地区、一个国家，乃至整个世界的重大问题。新冠肺炎疫情的发生和蔓延，对中国乃至全球经济产生了巨大的冲击和深远影响。在对抗新冠肺炎疫情的过程中，已经有不少的科研人员研究了疫情传播及其发展趋势，为疫情防控政策的制定提供宏观的数据依据，节省决策时间。

现有的传染病预测方法已有很多，如流行控制图法、灰色模型、求和自回归移动平均模型(Auto Regressive Integrated Moving Average Model，ARIMA)、Logistic回归模型、神经网络模型等。针对新冠肺炎疫情问题，研究人员进行了深入研究，并取得了一系列成果。例如，张琳采用一般增长模型分3个阶段非线性拟合新冠肺炎疫情中确诊、疑似和密切接触人数，拟合结果与实证数据高度吻合[1]。喻孜等人基于时变参数-SIR模型评估和预测COVID-19疫情，预测在2020年2月9日确诊人数达到高峰后，将呈现下降趋势[2]。Li等人建立梯度推进决策树(Gradient Boosting Decision Tree，GBDT)、Logistic回归(Logistic Regression，LR)模型和简化LR模型预测COVID-19的死亡率，其结果表明GBDT模型显示出最高的敏感性和特异性，且死亡率的预测性能优于LR模型[3]。盛华熊等人对武汉封城阶段运用经典的SIR模型和差分递推方法分析来预测疫情，理论值和实际值能较好吻合。对武汉封城前的自由传染阶段运用Logistic模型进行预测和比较，且模型对其他地区疾病传播的分析与预测具有广泛适用性[4]。李伟炜等人利用动力学模型(Susceptible Exposed Infectious Removed，SEIR)拟合COVID-19的再生系数曲线，并对湖北省以及国外疫情进行预测分析，其结果表明湖北省的疫情传播相对于国外得到更好控制[5]。王瑞等人提出运用Dropout技术的LSTM神经网络预测模型，构建更多层数的LSTM神经网络预测模型，并在隐藏层采用Dropout技术，能够有效解决过拟合问题，较精准地预测疫情趋势[6]。Takasar等人采用SEIQR模型通过参数校正预测了巴基斯坦的情况并对未来情况进行了讨论[7]。Yudistira等人考虑COVID-19病例增长的多种因素，使用可解释卷积-LSTM的视觉归因观察高贡献因素，比其他模型的预测误差都低[8]。季伟东等人分析粒子群优化算法的寻优特点，改进了寻优速度和寻优目的，采用100天新增确诊人数数据，将改进算法与其他算法对比，验证其算法的良好性能[9]。Wibowo等人采用Logistic回归模型预测印尼新冠肺炎疫情，实验结果误差较小[10]。Song Jialu等人提出一种通过考虑时变模型参数来动态预测新冠肺炎扩展的新方法，用最大似然估计理论估计时变模型参数，提出扩展卡尔曼滤波器来估计新冠肺炎扩散情况[11]。Shahid等人采用ARIMA、SVR、LSTM、Bi-LSTM等模型对COVID-19影响的十个主要国家进行预测，其结果表明预测模型的性能优劣排序为Bi-LSTM>LSTM>SVR>ARIMA[12]。

受已有研究成果启发，由于Logistic模型常常被应用于描述种群、传染病增长以及人口预测等领域，因此利用Logistic曲线的特性选择该模型，通过调参拟合疫情的历史变化趋势，并预测未来的疫情数据。但是在本次疫情传播过程中，受外界诸多因素影响较大，同时疫情确诊人数数据具有时间序列特征，而LSTM深度学习网络模型擅长解决与时间序列高度相关的问题，可以来学习一些人为干扰因素，因此该文利用国家卫生健康委员会、世界卫生组织等权威机构公开报道的数据，以历史累计确诊人数为基础，采用上述两个模型的组合来分析预测之后疫情累计确诊人数；
最后，通过评价指标值对各模型预测结果进行分析比较，结果表明组合预测模型相对其他模型的预测效果更好，为后续的疫情预测和防控工作提供技术支撑。

单个预测模型进行预测时会存在一些缺陷，如信息源的不全面、对模型设定形式敏感等。自Bates和Granger首次提出组合预测方法以来，因其能有效提高预测精度，受到国内外预测工作者的重视。组合预测是指应用两种和两种以上的预测模型对传染病进行预测，综合利用单个模型所提供的信息，以适当的加权平均形式得出组合预测模型[10]，尽可能地提高精度。组合预测模型有线性组合模型、最优线性组合模型、贝叶斯组合模型、转换函数组合模型、计量经济与系统动力学组合模型等，该文采用的是线性组合模型。

1.1 Logistic模型

Logistic模型，又可称为逻辑回归模型，是一种广义的线性回归分析模型[13]，它是皮埃尔·弗朗索瓦·韦吕勒在研究它与人口增长的关系时命名的。在疫情传播过程中，刚开始的环境阻力比较小，因此增长率比较大；
之后随着“封城”、隔离、戴口罩等措施的实施，环境阻力增大，增长率减小，传播规律与Logistic模型类似，故可以用Logistic模型来预测未来疫情数据，其公式为：

(1)

其中，t为时间；
K为容量，即增长到最后，P(t)能达到的极限；
P0为初始容量，即t=0时刻的数量；
r为增长速率，r越大则增长越快，越快逼近K值，r越小增长越慢，越慢逼近K值。该文建立Logistic模型后，采用非线性最小二乘法对K、P0、r进行参数估计，并以此对未来数据进行预测。

Logistic模型起初阶段大致是指数增长；
然后随着开始变得饱和，增加变慢；
最后达到成熟时，增加停止。Logistic模型常用于数据挖掘、疾病自动诊断、经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等[13]。

1.2 LSTM模型

LSTM由Hochreiter和Schmidhuber在1997首先提出，是为解决一般循环神经网络(Recurrent Neural Network，RNN)存在的长期依赖问题而专门设计出来的一种时间循环神经网络[14]。LSTM通过增加输入门限、遗忘门限和输出门限，使得在自循环的过程中权重是变化的，从而避免梯度消失或者梯度膨胀的问题。由于其独特的设计结构，LSTM适合于处理和预测时间序列中有间隔和延迟的重要事件。

图1为LSTM单元结构流动图，其中A模块为LSTM的单元结构图。假定hi为第i时刻状态的输出值，xi为第i时刻的输入值，W表示相应门的权重矩阵，b表示相应门的偏置，LSTM的具体流程为：

(1)遗忘门限：将前一时刻的网络输出和当前时刻的网络输入结合起来，然后进行线性变换后经过sigmoid激活函数，并将结果映射到0～1作为记忆衰减系数ft，其中1表示“完全接受”，0表示“完全忽略”，公式如下：

ft=σ(Wf·[ht-1,xt]+bf)

(2)

it=σ(Wi·[ht-1,xt]+bi)

(3)

(4)

(5)

(4)输出门限：首先采用类似于计算记忆衰减系数的方法得到输出门限的系数ot，之后将细胞状态输入tanh后与该系数相乘得到输出值，这两步公式为：

ot=σ(Wo·[ht-1,xt]+bo)

(6)

ht=ot×tanh(Ct)

(7)

LSTM模型常用于文本生成、机器翻译、语音识别、生成图像描述和视频标记等领域，同时LSTM模型也常被应用于机械故障诊断和预测领域，如处理机械设备的振动信号、航班延误预测、金融时间序列预测、加油站时序数据异常检测等问题。

1.3 组合预测模型

基于以上两种模型，该文将Logistic模型和LSTM模型的预测结果通过线性回归网络[15]训练权重参数并进行预测，以期得到更好的预测效果。

组合预测模型定义为：

(8)

损失函数为：

(9)

(10)

采用小批量随机梯度下降来优化参数，将模型各参数作如下迭代：

(11)

其中，|β|表示每个小批量中的样本个数，η称为学习率，η过大可能会导致震荡而无法收敛，η过小会导致收敛的速度慢，因此选择一个恰当的η值至关重要。

图2为所建立的组合预测模型结构，其中LSTM模型有四层网络：输入层、LSTM层、全连接层、回归输出层，其中设定LSTM层有200个隐含单元；
Logistic模型和LSTM模型预测结果作为线性回归网络的两个输入，通过线性回归网络训练该组合预测模型后，输出的结果为该组合预测模型的预测结果。

该文采用国家卫生健康委员会公布的2020年1月13日至2020年11月13日的累计确诊人数，将前276天(即2020年1月13日至2020年10月14日)的数据作为训练集来训练模型，之后的30天(即2020年10月15日至2020年11月13日)作为测试集来测试模型的效果。并利用评价指标对组合预测模型与LSTM模型、Logistic模型、SEIR模型预测进行对比分析。

2.1 模型求解

基于Python语言和PyTorch平台将Logistic模型与LSTM模型的预测结果作为输入层，将其结果进行归一化后输入到线性回归网络中，通过网络不断迭代对组合预测模型的参数进行训练，得到的模型参数为：

w1=1.000 5,w2=-0.001 5,b=-0.001 8

(12)

即最终得到的组合预测模型为：

(13)

图3为组合预测模型的预测结果，横坐标为天数(1月13日为开始)，纵坐标为确诊人数。实线部分为真实数据，虚线部分为预测的数据。图3表明，在前期疫情刚刚爆发，没有人为因素、政策等措施的控制，疫情的累计确诊人数急剧增长，在“封城”等一些措施实施后，疫情的累计确诊人数的增长速率减小，在中后期确诊人数趋于稳定，但仍在缓慢增长。

2.2 对比分析

组合预测模型、LSTM模型、Logistic模型、SEIR模型在2020年10月15日-2020年11月13日的累计确诊人数预测结果与真实数据如表1所示。从表1中可以看出，组合预测模型得到的结果最接近于真实数据，LSTM模型次之，Logistic模型和SEIR模型的结果与真实数据相差较远。Logistic模型的多日预测结果差距并不大，这是因为Logistic模型的特征为后期阶段达到容量后数据基本不变，因此在该时期预测结果较差。由于在后期国家对疫情的传播进行了有效的控制使得累计确诊人数增长缓慢，同时感染概率、康复概率、潜伏者的患病概率等因素值无法精确评估，因此在该时期SEIR模型的预测效果相对较差，预测结果与真实数据相差较大。

对于回归模型的评价指标有以下三种：

(1)均方根误差(Root Mean Squared Error，RMSE)。

(14)

(2)平均绝对误差(Mean Absolute Error，MAE)。

(15)

(3)平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)。

表1 不同模型预测2020年10月15日-2020年11月13日的累计确诊人数

(16)

根据这三个指标，所提出的组合预测模型与其他三种模型的指标值如表2所示。

表2表明，Logistic模型与SEIR模型的RMSE值、MAE值和MAPE值更大，说明预测效果较差；
而LSTM模型的RMSE值、MAE值和MAPE值较小，说明预测效果较好；
组合预测模型较其他模型误差最小，说明预测效果最好。

表2 组合预测模型与单一模型的评价指标

为克服单一模型预测精度低的缺点，在Logistic模型和LSTM模型预测的基础上，建立了基于线性回归网络进行训练的组合预测模型，并预测了之后的累计确诊人数，其中所采用的LSTM模型使用前一时间步的观测值来更新网络状态，使得到的预测值更加准确。采用三种评价指标将组合预测模型与LSTM模型、Logistic模型、SEIR模型进行评估对比，结果表明所建立的组合预测模型误差更小，预测效果更准确，可以为疫情预测提供科学有效的参考，同时为之后可能发生的公共卫生安全事件提供准确的预测模型。

猜你喜欢预测新冠模型无可预测黄河之声(2022年10期)2022-09-27适用于BDS-3 PPP的随机模型导航定位学报(2022年4期)2022-08-15选修2-2期中考试预测卷（A卷）中学生数理化(高中版.高二数学)(2022年4期)2022-05-25选修2-2期中考试预测卷（B卷）中学生数理化(高中版.高二数学)(2022年4期)2022-05-25选修2—2期中考试预测卷(A卷)中学生数理化·高二版(2022年4期)2022-05-09自制空间站模型小天使·三年级语数英综合(2022年4期)2022-04-28新冠疫苗怎么打?今日农业(2021年2期)2021-11-27您想知道的新冠疫苗那些事今日农业(2021年1期)2021-03-19新冠病毒的自白早期教育(家庭教育)(2020年5期)2020-09-10珍爱生命，远离“新冠”恋爱婚姻家庭·养生版(2020年3期)2020-04-13

Tags：预测组合确诊

上一篇：制造业企业成本精益管理研究
下一篇：可公开验证无对运算的无证书聚合签密方案