职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于自适应软重采样粒子滤波网络的视觉定位

2023-02-20 14:10:06

刘艳丽,尹慧君,张 恒+

(1.华东交通大学 信息工程学院,江西 南昌 330013;
2.上海电机学院 电子信息学院,上海 201306)

传统的粒子滤波算法[1-7]的局限性在于它们需要系统的概率模型,都是基于特定模型公式的算法,不能适应比较复杂的环境。随着深度学习的飞速发展,最近涌现了一系列新兴技术将算法结构集成到深度神经网络中,并以端到端的方式学习模型,逐步解决从数据中学习构建概率系统模型的问题,从而规避了传统模型学习的困难。Karkus等[8]引入一个粒子滤波网络(PF-Net),它将系统模型和粒子滤波算法编码在一个神经网络中,利用二维地图、观测图像和里程计信息作为模型的输入,并且允许端到端进行训练,解决了学习复杂概率系统模型的关键挑战。当大多数粒子远离真实状态时,使用重采样可以提高准确度,但当接近真实状态的粒子被消除时,就会产生伤害,通常发生在学习的早期阶段。

本文以粒子滤波网络框架为基础,对粒子滤波算法进行重新设计,提出自适应软重采样粒子滤波网络(ASRPF-Net),其网络结构如图1所示。为了更好提取地图信息和观测信息,先利用空间转换网络得到局部地图,再采用卷积神经网络学习地图信息和观测信息,来提高粒子权重的准确性;
通过结合粒子滤波标准技术,提出自适应软重采样方法,加入决策,使模型可以自己判断是否需要进行重采样,使用更少的粒子,缓解粒子消除现象,解决文献[8]中在高度不确定性环境下可能需要大量粒子才能准确定位的问题,有利于提高预测的准确性和定位的鲁棒性,并且在全局定位任务方面,有着更好的定位性能。

图1 自适应软重采样粒子滤波网络(ASRPF-Net)

1.1 粒子滤波

粒子滤波通过在状态空间中寻找一组随机样本(粒子)来逼近概率密度函数,用样本的期望值代替积分运算获得系统状态的最小方差估计[9]。粒子滤波算法使用粒子集来表示概率,在任何能用状态空间模型描述的非线性系统上都适用。粒子滤波算法的具体步骤如下:

(1)

归一化

(2)

步骤5 输出结果,输出新的粒子集,以及后验概率估计、状态估计和方差估计

(3)

(4)

(5)

其中,δ(·) 表示狄拉克函数。

1.2 循环神经网络

RNN称为循环神经网络[10],RNN神经网络不仅具有前馈连接,而且具有内部连接的反馈,从而起到“循环”的作用。正因为这种循环机制,让RNN具备记忆功能,因此RNN非常适用于处理序列数据。RNN被广泛用于语音识别[11]、机器翻译[12]、目标跟踪[13]、室内定位[14]和导航[15]等领域。RNN网络的图模型如图2所示。

图2 RNN的图模型

标准RNN通过维护一个确定性的潜在状态处理序列预测,该状态捕获输入历史的足够统计数据,并在给定新输入的情况下顺序更新。具体来说,RNN使用从数据中学习到的确定性非线性函数来更新hk[16]。

本文的网络框架类似于文献[8]中的网络,我们利用RNN的强大近似能力,在网络结构中嵌入粒子滤波算法,构建一个概率神经网络。ASRPF-Net模型以循环神经网络为基础框架进行设计,将粒子状态作为循环神经网络的隐藏状态,其网络结构如图1所示。结合传统的贝叶斯算法和神经网络,在一个循环神经网络中编码一个粒子滤波算法,以学习端到端的序列状态估计的模型,同时将运动模型、观测模型、空间转换网络模型和自适应软重采样模型融合到一个RNN单元中。ASRPF-Net模型的具体结构包含3个模块(运动、观测和自适应软重采样模块)。

(1)运动模块:以当前时刻运动信息以及前一时刻粒子状态作为输入,获得在当前时刻粒子的新状态。

(2)观测模块:将当前时刻的粒子状态、观测信息和地图作为输入,通过利用空间转换网络模型获得局部地图,再用卷积神经网络对局部地图信息和观测图像信息进行高效提取,为每一个粒子计算似然度,根据其似然度更新每个粒子权重。

(3)自适应软重采样模块:为了避免粒子退化和规避在RNN单元嵌入粒子滤波过程中梯度消失,加入决策,采用提出的自适应软重采样方法,根据上述获得的当前时刻粒子状态和粒子权重,对粒子集进行处理,输出新的粒子集。

该模型是完全可微的,算法和模型都被编码到统一的网络中表示,通过结合粒子滤波标准技术,融合一种新的自适应软重采样方法,得到自适应软重采样粒子滤波网络。ASRPF-Net模型以循环神经网络的形式实现粒子滤波算法,将神经网络作为可微分程序或计算图模型,允许进行端到端的训练和学习,如图3所示。ASRPF-Net中的可微算法先验是粒子滤波:信念的粒子表示,以及用于运动模型和观测模型的贝叶斯更新。ASRPF-Net在计算图中对粒子滤波进行编码,运动模型和观测模型是具有特定结构的可训练神经网络。其中运动模型主要是采集机器人的动作,观测模型主要基于地图信息和机器人的观测信息,然后利用粒子滤波算法更新状态空间,达到与真实状态最一致。

图3 ASRPF-Net计算

粒子滤波器在接收到观测数据后周期性地近似状态的后验分布,即使用粒子来表示系统的状态信念b(h)。

该信念近似由一组粒子组成,即含有加权粒子的概率分布

(6)

(7)

(8)

第一步由式(7)可见,使用跃迁动力学来更新每个粒子。第二步由式(8)可见,将利用观测信息来更新粒子权重。

我们的信念更新具有与标准粒子滤波器相似的结构,但是我们使用更丰富的函数来替换运动模型和观测模型。ASRPF-Net模型通过运动变量uk、 观测变量zk和地图M更新先前的粒子信念bk-1, 以获得当前的粒子信念bk。

3.1 粒子状态更新

3.2 粒子权重更新

图4 ASRPF-Net观测模型框架

图5 CNN1模型结构

图6 CNN2模型结构

3.3 自适应软重采样

为了避免粒子退化,即大多数粒子具有接近零的权重,粒子滤波器通常对粒子进行重采样。然而重采样是不可微的,这阻止了使用反向传播来训练概率神经网络,导致模型在训练过程中不能利用粒子变化的梯度信息。为了规避在RNN单元嵌入粒子滤波过程中梯度消失,我们采用文献[8]中提出的软重采样策略,软重采样是一种基于重要性采样的可微近似,为不可微重采样步骤提供近似梯度。由于在文献[8]中发现当大多数粒子远离真实状态时,使用重采样可以提高准确度,但当接近真实状态的粒子被消除时,就会产生伤害。本文通过结合粒子滤波标准技术,采用自适应重采样原理,提出自适应软重采样方法,加入决策机制,根据当前的有效粒子数目来判断是否要执行重采样操作,其中判断机制的有效粒子数Neff表示粒子的退化程度,Neff值越小,意味着退化现象越严重,需要进行重采样操作。

计算判断机制的有效采样尺度Neff, 确定粒子退化程度。Neff如下定义

(9)

由式(9)中可以看出,粒子退化程度越严重,粒子权重的方差越大,使得Neff的值越小及样本中符合条件的高权重粒子越少。因此,为避免出现高权重粒子占的比重过小的情况,算法需要对Neff设立相应的阈值。我们设定有效样本数Nthreshold=aNparticle作为阈值,其中Nparticle为粒子个数, 0

当Neff

(10)

若判断为需要进行重采样操作,ASRPF-Net模型采用软重采样方法(具体公式请参见文献[8])。在本实验中取α=0.5。

我们可以有最终粒子信念可以表示为

(11)

自适应软重采样方法,通过实时计算有效粒子个数和评判粒子退化程度,保证只在有必要时ASRPF-Net才实施重采样操作,有效减少重采样次数,改善频繁重采样所导致的样本枯竭的影响,缓解粒子消除现象,提高算法的鲁棒性。

算法1:
ASRPF-Net总体算法框架

(1)fori=1 toNdo

(5)ifNeff

(7)end if

(9)end for

(10)returnbk

把该模型运用于机器人视觉定位,机器人在未知的室内环境中进行导航。它需要通过车载摄像头,里程计信息以及二维地面示意图来确定自己的位置。通常用最小均方误差来判定系统的优劣,因此训练损失函数

(12)

为验证提出算法模型的性能,我们将用基于自适应软重采样粒子滤波网络模型对机器人定位进行实验仿真,对比其它的网络结构模型来验证可微算法先验和端到端训练的优势。我们还研究当机器人的初始信念从围绕其真实位姿分布到均匀分布整个空间时,设置不同粒子数目和不同初始信念,来对比在不同的不确定性水平下该模型的定位有效性,该模型还同时利用语义信息进行定位,针对语义地图不同的标签数据,来比较该模型的定位有效性。为了进一步研究该模型的定位性能,我们在使用视觉信息和里程计信息的模拟三维迷宫中测试全局定位任务。

4.1 实验数据集

在House3D模拟器中进行仿真实验,使用的是SUNCG数据集。该数据集是有大量人类设计、真实的住宅建筑数据。平均建筑面积为206平方米,房间的面积为37平方米。实验所需的训练集和测试集的部分建筑图片如图7所示,它们是来自不同建筑的图片。对于一个新的、未被看见过的和充满家具的环境,通过学习复杂环境中的信息,机器人同时利用语义信息将三维世界的丰富视觉特征与示意性二维地图相匹配,进行自身定位。对每个建筑的语义地图进行标记,标记的模式如图8所示,其中标记了门和房间。

图7 部分训练集与测试集展示

图8 标有门和房间类型的语义地图

在DeepMind Lab的虚拟环境中进行实验,通过让模拟机器人在迷宫中行走来收集数据,并将收集的数据作为训练数据。通过机器人随机在迷宫中行走获得的1000条轨迹,机器人每一步都通过相机获得当前位置的图像。对于每个迷宫,使用机器人在迷宫中的1000条运动轨迹进行训练。我们将使用其中的模拟环境Maze1进行实验,对应的先验地图和机器人所看到的图像如图9所示。

图9 模拟环境Maze1

4.2 实验设置

在对ASRPF-Net网络进行整体训练时,训练集包括45 000组轨迹数据。轨迹是由机器人随机产生的,通过向前移动(p=0.8)或者转向(p=0.2)生成轨迹。其中,距离和转弯角度的范围分别是[20 cm,80 cm]和[15°,60°]。在训练过程中,我们设置每条轨迹的步长为24,粒子数目为30,学习率为0.0001,训练的反向传播步长为4,生成的初始粒子的平移和旋转的标准差为σt=0.3 m,σr=30°, 运动的平移和旋转的标准差为σt=0 m,σr=0°。

在训练期间没有进行重采样操作,因为在训练过程中不需要短的轨迹和集中的初始信念。实验中,我们的方法使用TensorFlow框架在Python中实现,并在Nvidia GeForce GTX 1080ti的计算机上进行测试。

为了验证ASRPF-Net模型在机器人定位的准确性,我们在47个以前未见过的建筑中的820条固定的轨迹上,将该模型与其它模型进行对比实验,其它模型包括PF-Net[8]、直方图滤波网络和LSTM网络,在实验中,我们还添加只使用里程计信息更新信念,不使用传感器作为信息输入的情况下的Odometry-NF模式。

为进一步分析ASRPF-Net模型的定位性能,在DeepMind Lab的导航环境下进行实验,对于每一个迷宫,机器人以每秒钟行走一步的速度被训练出1000条100步的轨迹。机器人每走一步都能获取相应的观测图像信息,里程计信息包含机器人行走的位置和方向的变化。获得的机器人轨迹在训练时每20步使用Adam进行优化并且使用dropout进行规范化,训练时我们设置学习率为0.0003。

4.3 实验结果与分析

针对机器人定位跟踪,对比分析ASRPF-Net模型与其它模型的定位效果。实验结果使用平均均方根误差(RMSE)进行评估,RMSE值越小则定位越准确。各种模型方法均在使用RGB传感器下的跟踪实验结果见表1。

表1 各模型的跟踪RMSE/cm

从表1中,我们可以看出,与PF-Net、HF network和LSTM network模型相对比,ASRPF-Net模型的RMSE值是最小的,说明该模型在相同条件下机器人定位更加准确。从整体上来看,只使用里程计信息作为输入的Odometry-NF模式定位效果是最差的,PF-Net的定位表现要好于HF network和LSTM network,但是定位效果与ASRPF-Net模型的相比还有一些差距。

为了进一步量化分析,对ASRPF-Net模型和其它模型的定位成功率进行比较。在定位任务中,根据定位成功的轨迹数占全部轨迹数中的比例,可以计算出算法定位结果的成功率。实验结果使用100步长轨迹的定位成功率,如果轨迹的最后25步的估计误差小于1 m,则定位成功。各种模型方法均使用σt=0.04 m,σr=5°下的定位的实验结果如图10所示。

图10 各模型的定位成功率

由图10我们可知,在定位任务中,HF network的定位准确度比较低,是因为该模型本身具有较大的缺陷,不能表示连续的状态空间。LSTM network虽然可以充分学习数据中包含的相关性,但它缺乏一个确定的概率模型,所以其定位准确度只能达到大约20%,定位的效果较差,很难满足现实需求,不能用于实际。Odometry-NF由于只将里程计信息作为输入,该模型的定位准确度最低,定位效果较差。PF-Net的定位成功率都远远高于HF network、LSTM network以及Odometry-NF模型,但是ASRPF-Net模型的定位成功率是最高的,可见ASRPF-Net模型的定位效果是最优的,表明基于概率模型的端到端可以提高模型的学习能力和鲁棒性。

我们还考虑具有不同程度的不确定性的本地化,在定位任务中,初始信念在一个或者多个房间是一致的。因此,粒子数目和初始信念的不同也会影响模型的定位效果。初始信念设置为一个房间的初始信念一致(N=1)和两个房间的初始信念一致(N=2)以及在所有房间的初始信念一致(N=ALL)3种参数,粒子数目设置为500、1000、2000和3000,在初始化时设置不同的粒子数目,对比分析各模型的定位成功率,其中成功率同上述定位任务的成功率的计算方法一致,实验结果如图11所示。

图11 不同初始信念和粒子数目的各模型定位成功率

从图11我们可以看出,当我们把所有房间的初始信念设置为一致的时候定位成功率较低,定位效果最差,因为当所有房间的初始信念设置为一致时,机器人可能需要进行更多的判断才能精准定位。在不同初始信念和粒子数目情况下,与PF-Net、HF network、LSTM network以及Odometry-NF模型相比,ASRPF-Net模型的定位成功率都是最高的。当粒子数目相同时,实验结果表明当初始信念在一个房间内一致时,甚至当在整个房间内一致时,不确定性水平增加的ASRPF-Net模型也可以成功定位,并且其定位精度也是最高的。具体来说,当初始信念设置为N=1时,ASRPF-Net模型的定位成功率最高,当初始信念设置为N=ALL时,在初始不确定性较高的情况下,ASRPF-Net模型使用更少的粒子达到更好的定位效果。当初始信念设置相同时,我们看出随着粒子数目的增加,定位的成功率也在不断增加,因此粒子数目越多,定位的效果越佳。但是粒子数目增加,计算时间也会增大,可能会导致定位的时效性变差,所以选取适当的粒子数目,有利于达到定位的最好效果。

ASRPF-Net模型使用神经网络对机器人获得的图像进行学习,虽然图像中包含很多信息,但是因为输入源信息比较单一,所以不适应很多复杂的环境。因此,ASRPF-Net模型同时利用语义地图和观测图像信息,使模型具有更多的输入源信息。语义地图包含建筑的一些基本信息,如房门的位置以及房间的类型。在实验中按照如图8所示的标记方式来标记SUNCG数据集中的语义地图。对数据集中的语义地图进行标记结果如图12、图13所示,图12(a)和图13(a)均为数据集中的建筑地图,图12(b)和图13(b)均为只标记房门的地图,图12(c)和图13(c)均为只标记房间的地图,每个像素对应于唯一的房间id,对于重叠的房间,较高的id会覆盖较低的id,图12(d)和图13(d)均为标记房间id的地图。

图12 标记数据集中的语义地图1

图13 标记数据集中的语义地图2

ASRPF-Net模型可以通过端到端训练,自然地学会使用语义地图。为验证这一点,我们用带有门和房间类别的简化语义地图来训练概率神经网络,将语义标签编码在输入地图的不同通道中:1个通道用于门,8个通道用于不同的房间类别。针对语义地图不同的标签数据,对提出算法模型的定位有效性进行比较,如表2所示。

表2 不同标签数据的定位成功率/%

在实验中,先对语义地图进行简单的标记,再对模型进行训练。语义地图的标记方式设置4种模式,包含无标记、只对房门做标记、只对房间做标记以及对房门和房间都做标记。从表2的实验结果,我们可以得出当没有对地图进行标记时候,机器人的定位效果最差,当对房门和房间都做标记的地图,机器人能够获取更多的信息,定位的成功率最高,定位的效果最优,表明利用简单的语义地图可以提高定位性能。同时为了更深入研究该模型和验证改进算法的合理性和有效性,进一步做了消融实验。我们在训练期间改变网络的参数设置,增加重采样,当训练增加初始不确定性和噪声里程计,由于结合自适应软重采样策略,只有当需要的时候才启动重采样,成功率从39%增加至45%。这也表明,使用重采样可以提高准确度,与PF-Net加入软重采样成功率42%相比,ASRPF-Net通过采用自适应软重采样方法,加入决策,能够有效减少接近真实状态的粒子被消除的现象,提高定位的成功率。

本文进一步使用ASRPF-Net模型对机器人进行全局定位,在DeepMind Lab中的模拟环境Maze1中的全局定位效果如图14所示,测试轨迹每一个时间步长绘制一张图。实验中设置粒子数目为1000,并且使用RGB相机作为输入。

从图14实验结果可以看出,图14(a)在最初的时候,整个环境中都充满粒子,其中使用圆形标记机器人的最初的位置,箭头表示机器人的方向,图14(a)~图14(g)中同样使用圆形标记机器人的位置。在图14(b)~图14(d)的定位过程中,随着训练的进行,粒子逐渐接近真实状态,表明模型对机器人运动的预测越来越准确,并且从图14(e)开始,模型预测的位置与机器人的实际位置非常接近。最后,从图14(f)~图14(g)中可以看出所有粒子都基本在同一位置。具体来说,我们在每个环境中使用1000个粒子进行预测,粒子颜色越深,则表明权重越大。开始训练时,每个粒子的权重都是一样的,随着模型的训练,与真实状态差异很大的粒子将被去除,而更接近真实状态的粒子会增大权重,这些粒子参与下一步的训练,有利于机器人下一步的预测。粒子权重的变化主要通过重采样过程来实现的,我们采用自适应软重采样,在训练中可以传播梯度信息,使模型可以在下一次训练中使用这些信息,加快训练速度,并在有需要的时候启动重采样,使训练结果可以更快接近真实状态。在模拟环境Maze1的定位效果如图14(h)的定位效果,其中浅色表示机器人运动的实际路径,深色表示模型对机器人运动的预测。可见,在初始时刻,机器人定位的效果并不是很好,但是随着模型训练的进行,粒子越来越接近真实状态,最后所有粒子都在同一处,ASRPF-Net模型的定位精度越来越高,最后的定位效果已经基本接近机器人的实际位置。

图14 ASRPF-Net模型在Maze1中的定位过程

我们集成算法推理和深度学习进行概率状态估计,并加入决策,提出自适应软重采样粒子滤波网络,通过计算有效粒子数,使模型只在有需要的时候才启动重采样操作。模型采用软重采样,重采样的粒子参与下一步训练。我们使用ASRPF-Net模型对数据进行训练,将该模型运用到机器人视觉定位,并且与粒子滤波网络(PF-Net)模型和其它模型进行对比,实验结果表明定位的RMSE和成功率都有所提升,在全局定位任务中,模型预测的位置与机器人的实际位置非常接近,说明ASRPF-Net模型在视觉定位中有效提高预测的准确性和定位的鲁棒性,在机器人定位方面有着更好的性能。在未来,我们将进一步优化该模型,以提高执行效率和定位精度,从而使该模型能够更好地应用于机器人定位。

猜你喜欢 滤波信念粒子 碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭昆明医科大学学报(2022年1期)2022-02-28为了信念黄河之声(2021年9期)2021-07-21冠军赛鸽的信念(上)雪豆月读·低年级(2020年7期)2020-09-10基于膜计算粒子群优化的FastSLAM算法改进新疆大学学报(自然科学版)(中英文)(2020年2期)2020-07-25发光的信念音乐天地(音乐创作版)(2020年2期)2020-04-18Conduit necrosis following esophagectomy:An up-to-date literature reviewWorld Journal of Gastrointestinal Surgery(2019年3期)2019-04-24基于EKF滤波的UWB无人机室内定位研究电子制作(2018年16期)2018-09-26一种GMPHD滤波改进算法及仿真研究火控雷达技术(2016年3期)2016-02-06基于自适应Kalman滤波的改进PSO算法海军航空大学学报(2015年1期)2015-11-11问:超对称是什么?飞碟探索(2015年8期)2015-10-15

Tags: 滤波   采样   粒子  

搜索
网站分类
标签列表