【通讯专题】基于变分贝叶斯的联合优化 及其在现代信息融合处理中的应用

2019 年 1 月 22 日 中国自动化学会

信息融合的定义


信息融合(Information Fusion)这一词首先源于美国,它的研究起源于军事 C3I 系统建设的需求。1984 年,美国国防部成立了数据融合联合指挥实验室,该实验室提出了他们的 JDL 模型,经过逐步改进和推广使用,该模型已成为美国国防信息融合系统的一种实际标准。JDL 定义信息融合是一种多层次、多方面的处理过程(包括对多源数据进行检测相关、组合和估计等),以提高状态和特性的估计精度、实现对战场态势、威胁及其重要程度的实时完整评价。信息融合的一般定义为利用各种信息技术与工具,对按时序获得的若干传感器的观测信息在一定准则下加以自动分析、优化综合以完成所需的决策和估计任务而进行的信息处理过程。

总之,信息融合的内涵包含了三个方面,一是各种传感器是信息融合的基础,二是多源信息是信息融合加工的对象,三是协调优化和综合处理是信息融合的核心。较单传感器探测而言,多传感器融合可以提高性能的可探测性、可信度、扩大时间和空间感知范围等。

信息融合的主要模型是 JDL 模型,它是一个多层次结构化模型, 包 括 0、1、2、3、4、5 层。以一个军事 JDL 模型为例,如航母,有雷达、红外线、电子知识测量、敌我识别、声纳、激光, 多数航母,或者一个群,一个编队,也是分级的。在这个分级中我们希望的目标状态、目标属性, 以及整个态势,就是信息融合。

信息融合遇到的挑战

(1) 传统的融合系统得到的观测是建立在公共基准上。可能是房间里电压值和电压不稳,感觉灯光晃动, 电压怎么不稳了, 需要用 220V 电压表测量出一个值。一个是语义,一个是空间, 这怎么融合?肯定要在空间坐标变换、时间尺度变换、单位制式转换上来进行,可以做定位、预 测、属 性、分类和识 别。比如“山竹”台风就是在城市应急中应用到了信息融合系统。我们提前做了预判,应急方面做得很好, 避免了不必要的伤亡。

(2) 对象。从军事角度来讲我们要面对像美国这样的超级大国,这种对象非常复杂,当然我们的手段也很丰富。这种意义上再做信息融合。

(3) 非线性永远存在多模式。多个传感器本身可能带来多模式, 比如目标跟踪,目标本来做匀速运动,突然到某个地方开始拐来拐去,从运动来讲原来是一级方程变成现在的二级方程,模式之间来回转换。

(4) 耦合。耦合是非常复杂的,我们在天气好、天气不好的时候都要进行系统的综合,环境和关注对象之间往往存在耦合。

(5) 未知参数。未知参数有系统建模中间的良噪未知、恶噪未知。

(6) 高维数。多目标、多模式、网络化、多未知数必然导致高维数问题。多模式可以用马尔可夫系统近似描述。今天我们重点解决未知参数和高维数问题。

一体化融合和联合优化

传统的信息融合系统就是从传感器检测得到一些量测,把这些量测做凝聚,会有一些冗余,然后把对象及这个量测是不是来自这个对象搞清楚,接下来做状态、属性,依次进行。这种串行分而治之的序贯处理方式的缺陷是,信息利用率很低,如果里面有大量的状态之间、参数之间是耦合,便会使难度增加。第二典型的开环结构,自适应调整非常强,鲁棒性非常差,会存在误差并会累积,若不返回,如何消除误差,这要看设计,设计好就可以消除。针对这些问题目前国际上已经有一些联合优化的框架和方法,可以归成四大类。

一是返回。比如 TBD,是一个信号检测器,所有信号检测器都有一个输出门限,越过门限输出,没有越过门限便认定没有信号。雷达看到目标,把目标附近的点的位置返回到信号检测会发现刚刚用的门限,在那个点位置的噪声很低,没有输出。但有目标,总是有一个门限,它可以降低,可是不能无限降低,输出的虚景杂波很多,都是噪声,能不能把已经确定是目标的附近降低一点门限,相信信噪比会好一些。这样弱小目标就可以形成,大量工程应用就可以得到,把信号弄到这里改一改,一个简单的返回就可以提高 3 个 DB,这是从状态到点迹聚类。

二是对关联对象识别。既然已经得到了对象的位置、速度所谓状态的属性,也可以对关联对象识别,这两个综合是显而易见的。比如说现在粒子滤波,只用图像跟踪,不能用状态估计值很可惜,这个汽车可能停下来,可能减速,更大概率它可能穿越过这个树林,再加上图像,两个综合起来,就可以很好的处理这个问题。

在这种情况下如果可以做一个风险意义下的估计辨识的统计框架,将不同环节连通起来,便可以处理多种复杂或耦合问题。闭环结构可以提高利用率,而且在不同层次环节间建立不同层次的联合优化,这样可以形成统一的问题。

对于这样一个问题有统一的数学框架,最开始用 EM 方法, 最后用贝叶斯 VB 方法。贝叶斯 VB 方法是在解析框架下求解这样一个问题的一种办法。重新把这个问题建模,实际上是要得到某一类的状态,是在一个传感器量测的条件下得到的。这里面引入一个 S,信息融合中间有没有目标,目标和量测之间关没关联上, 整个模式是不是很多,关联本身若是一个事件问题, 目标会不会激动,系统有没有建模的误差等等, 这里面有些是离散的,有些是连续的,要求这样一个积分的话,离散和连续需要同时考虑。这样一个数据框架应该说直接去求解还是有很大的挑战,因为它是连续变量和离散变量的一个混合系统。

对于联系变量可能有解析解, 也可能有数字解,对于离散变量, 可以用排列求和,若用其他方法计算量比较大。两点之间最短路径,最速降线,贝叶斯引入的随机是用熵表述的。变分中间的最大熵,即熵最大下求 X 的最大熵数,是用最大熵求解的变分问题。

在变分贝叶斯中间具体是怎么做的?传统的贝叶斯从左向右推,这是量测,是 X 要求的部分, 且求的部分被统称为隐变量。用贝叶斯展开, 会发现这个量测, 是假设这个系统存在我们可以达到的量测,量测的分布,可以进行迭代,若不能,就要先进行假设。在变分贝叶斯框架中把这个量测放在左边,用相当于全概率的公式,写成一个公式,取对数就变成两个和,这两个和以后就变成两部分,这两部分引入新的测量、度量。第一个度量定义为置信下界。第二部分为相对熵。上文中最大熵有三个熵,分别为信息熵、相对熵、与交叉熵。三个熵之间有严格的等式关系。

置信下界,展开会遇到平均场分解,展成两项,前面一项是一个过程,这中间如果引入平均场后,就把 Q 按照隐变量可分解或者可独立的分解形式分解开, 这样就出现了两个 Q,Q 实际上就是我们自动的迭代起来的,后面一项还是熵。置信下界用 KL 散度和信息熵度量,在 KL 散度最小时,置信下界最大。如果量测已知,两个 KL 散度一个信息熵是常值,通过最大化变分分布熵,同时最小化 KL 散度, 可以得到整个近似分布, 这个近似分布包含所要的全部隐变量。

在这个过程中,一开始总是要选择一个最初分布点,但数学上证明初始的分布点存不存在, 要让它最小,就可以形成一个迭代。通过迭代,整个算法收敛到这样的递进模式中。

这中间用到了平均场的方法。考虑到隐变量是高维、耦合的情况,采用平均场理论将变量分解, 这个公式中间是假设的,这些变量之间是否有耦合关系不明确。变量分解,耦合关系弱化,平均场理论有两个基本的思想:一个是个体之间局部作用较为全局的作用,是平均场理论可以忽略不计。第二是每个个体之间相互作用非常充分,平均场理论基本思想变革之间相互作用非常充分,实际就是每一个局部分布的求解过程,分解之后就会分成小的求解过程,每一个过程是交叉迭代进行的,这样就可以把平均场理论个体之间相互的充分作用表示出来,进而得到分解架构。从数学上来讲平均场理论基本上可以认为是收敛。

平均场从物理意义上一定是收敛的,既然得到量测,那么一定存在真实的物理世界产生这个量测,这个真实的物理世界对大部分的控制系统和工程系统,它是一个变分收敛甚至是稳定的。后面一定是存在的,只是这个分布是不是那么贴切的好而已。对于绝大部分系统其实这个分布可能贴切的非常好。

从这个意义上引入平均场,由于平均场本身机理,加上变分贝叶斯的分布,只在分布上,并不在其他地方,所以可以保证算法的有效性。选择参数的时候,最好选择共轭先验模型,这样可以构造联合概率密度函数。接下来就是交互,一边对应的是一个状态的,另一边对应参数的有两个准则,一个是置信下界准则, 一个是 KL 散度准则,置信下界准则可以拆分成 KL 散度准则和分布熵准则的。两个箭头循环得到一个下界,这样输出参数结果, 整个性能就可以得到保证。

这个领域里面有平均场理论的变分推理的结论,也有参数变分近似与随机变分的研究,还有其他的研究,这些研究都构成了整个变分贝叶斯的方法体系,整个变分计算中间梳理了几个要点: 第一个,在这样一个框架下提供统一的估计与辨识的贝叶斯的框架。

第二个,迭代优化能够有效地解决深耦合问题,从而实现精细化处理。

第三个,平均场近似将高维隐变量的联合处理转化为多个低维隐变量的迭代处理,从而降低计算量。对整个公式进行讨论,表示单纯的非线性估计优化问题,可以用传统的方法解 KL 散度。

对于最复杂的情况,不能用平均场分解。在两个相互独立的中间变量中间,引入一个中间变量,再通过中间变量去得到,然后把变分贝叶斯往下再来一遍,这是对于最复杂的情况给出的一个很好的结果。

关于变分分布近似的问题,采用平均场分解,控制计算量, 控制计算量采用确定性关系替代随机性的关系,这个形式上有点极端,由于极端使隐变量的波动带来的参数波动得到了抑制,这是一个结果。

第二个是它的形式问题,其实这个形式大部分可以采用高斯等常用分布,并不需要非常复杂的分布。如果与 EM 作分析对比, 它们都是单调下降的,只是下降的方式不太一样。VB 是已知先验分布的未知参数被当作隐变量,而 EM 算法中,未知参数是显性的。未知参数满足估计的约束条件,VB 退化为 EM。 EM 对低维处理更简单,VB 对更高维处理更好。

表征不确定问题中有两大方法,一个是确定性解析方法,如VB,另一个是随机采样方法,被认为是 MCMC。计算量中最接近 MCMC 的是 VB,EM 虽然简单但是性能也会下降,这样的VB 是一个解析的框架,而且有置信下界。对于 MCMC 如果点散的太多计算量很大,计算效率没有 VB 高。例如,把它用在比较复杂系统中间,这是典型目标跟踪的问题,中间有非线性估计的问题,也有参数辨识的问题。基本上在航迹、量测、混合上有做,现在 EM 已经有所应用,VB 很少。大量信号信息处理都存在类似的问题,VB 是非常有效的框架。这个例子所用的雷达,基本上已解密。这个雷达有一个特点,向天空发射一个波,这个波在天上正好形成一个反射,照到金属上, 船、飞机就会飞回,又回到空中,在空中又下来。在 30 兆赫兹的频段,天空有一个层,可以像镜子一样反射,利用这个原理可以设计超远雷达,这部雷达可以覆盖 3500 公里,近的看不到,所以我们国家雷达都在内陆,离海岸一千公里。美国东西海岸各三部雷达,其他的国家有俄罗斯、法国、澳大利亚,其中澳大利亚内部雷达是美国帮助制造的,另外就是中国,这个雷达很大,天线阵地, 三公里长,一开机便耗费一个小城市的供电。从上往下看,加上30 兆的波段,所有的隐身飞机都没有意义,它可以一览无余,根本不可能隐身。

但这个雷达有一个问题,就是电离层,有几十公里到几百公里这么高。俄罗斯只有一个电离层,赤道没有电离层,在中间, 一般两到四层,20 分钟一大变,50 分钟一小变,关键在于中国国土面积太大,要想探测全部的电离层,需要耗费很大的资金。那中间位置怎么办?若一个车站跟一个车站差两千公里,可以做一个模型,但电离层本身太过复杂,误差自然也会增大。而且这种射线追踪,会产生很多问题。同时这部雷达由于太大,检测率会很低,精度很差,且虚警率高。目标回波沿射线折返,高度依赖电离层,而电离层的结果送给雷达处理一下便结束了。

2012 年,我们对于非线性的问题研究发现量测与传播模式关联有很多问题。高维数,由于目标状态、多参数、多路径,四个电离层可以组合,路径很多,多测量,测量空间维度很高,耦合极差。用这个量测做状态估计,必须要用变分贝叶斯,检测、跟踪、建模,可以看到有量测目标存在对象,和量测目标之间关联的对象、量测、电离层传播模式关联的,要求的是一个后验概率。电离层的量测和传播模式之间的相互关系,这显然是可以用变分贝叶斯求解。

根据图模型和平均场理论进行分解,将跟踪与联合优化后验写出来,就可以用 KL 散度的方法解释。分成三大模块,对具体问题,如何分开,工程上可以先进行处理。把多路径、多模式、多目标数据关联作为模块一,接下来把目标状态作为一个独立的模块。把参数估计作为独立模块,把参数估计中间存在性、模式作为一个模块,还有关联作为一个模块, 这样形成一个迭代的过程就可以解释。最后想对整个变分贝叶斯的未来发展提几条建议:

第一个希望和 MCMC 结合解决计算问题,现在已有人进行研究。MCMC 能不能帮 VB?

第二认知雷达中的认知传感器有很多人在做。现在网络也有人把网络化传感器用变分来做,像这样的一个复杂网络,变分有没有可能发挥作用,解决我们原来复杂网络中间、通讯中间、丢包中间、延时中间的不确定性,因为计算量总体来讲是可控的。

最后一个,数据驱动时代,概率建模已有人在做。模型和数据之间能不能形成相互的驱动?在这样的意义下,有没有可能把更为一般的东西做成一体化的优化框架?

此文围绕国家战略预警系统,介绍了在目标检测、跟踪、识别中的一些工作,对于国家未来作战,也对信息融合会产生一些影响。

潘泉,西北工业大学教授、自动化学院院长,国家保密学院常务副院长,信息融合技术教育部重点实验室主任。

主要研究方向:信息融合、目标跟踪与识别、空天平台感知与控制、多光谱偏振图像处理等。获国家科技进步一、三等奖各 1 项,省部级科技进步奖 10 项,国家教学成果二等奖 1 项、省教学成果特等奖 1 项。出版专著 10 部、国家级规划教材 1 部,发表论文 400 余篇,SCI 收 录 100 余 篇 次。获全国优秀科技工作者、中国青年科技奖、陕西省有突出贡献专家、陕西省优秀教师等称号。任国务院控制科学与工程学科评议组委员、中国航空学会信息融合专委会、机载武器试验与鉴定专委会等副主任。

(本文发表在《中国自动化学会通讯》第5期)

往期文章推荐

🔗【会员主题日】中国自动化学会会员专属服务在行动

🔗【重要通知】中国自动化学会关于2019年度国家科学技术奖提名工作的通知

🔗【重要通知】关于征集2019重大科学问题和工程技术难题的通知

🔗【学科发展报告】无人船

🔗【全国学会优秀改革案例汇编】学会治理结构与治理方式:会员(代表)大会

🔗【重要通知】中国自动化学会关于组织推选2019年中国科学院和中国工程院院士候选人的通知

🔗【全国学会优秀改革案例汇编】学会治理结构与治理方式:理事会(常务理事会)

🔗【学科发展报告】无人机

🔗【CAA】中国自动化学会选举产生第十一届理事会领导机构(内附名单)

🔗【学会新闻】中共中国自动化学会党委荣获全国学会“星级党组织”称号

登录查看更多
1

相关内容

专知会员服务
112+阅读 · 2020年6月12日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
专知会员服务
221+阅读 · 2020年5月6日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
互联网+检验检测智能化成发展趋势
人工智能学家
7+阅读 · 2019年3月2日
【CPS】信息物理融合系统理论与应用专刊序言
产业智能官
7+阅读 · 2019年2月27日
【学科发展报告】无人船
中国自动化学会
26+阅读 · 2019年1月8日
【数字孪生】数字化孪生“双胞胎”技术及应用
产业智能官
21+阅读 · 2018年8月12日
【智能制造】智能制造的核心——智能决策
产业智能官
12+阅读 · 2018年4月11日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
29+阅读 · 2018年4月6日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
专知会员服务
112+阅读 · 2020年6月12日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
专知会员服务
221+阅读 · 2020年5月6日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
相关资讯
互联网+检验检测智能化成发展趋势
人工智能学家
7+阅读 · 2019年3月2日
【CPS】信息物理融合系统理论与应用专刊序言
产业智能官
7+阅读 · 2019年2月27日
【学科发展报告】无人船
中国自动化学会
26+阅读 · 2019年1月8日
【数字孪生】数字化孪生“双胞胎”技术及应用
产业智能官
21+阅读 · 2018年8月12日
【智能制造】智能制造的核心——智能决策
产业智能官
12+阅读 · 2018年4月11日
Top
微信扫码咨询专知VIP会员