目录
1 绪论 1
1.1 目的和意义 1
1.2 研究现状 2
1.3 课题内容 3
2相关理论基础 3
2.1 web相关技术 3
2.1.1 Vue 3
2.1.2.库和框架的区别 4
2.2 SpringBoot 5
2.2 深度学习 6
2.2.1 卷积神经网络 6
2.2.2 残差网络 7
3 红外与可见光图像融合模型 8
3.1 图像融合的三层结构 9
3.2 图像配准及预处理 10
3.2.1 基于像素的图像配准 11
3.2.2 基于特征的图像配准 12
3.3 红外与可见光图像融合经典算法 14
4 基于残差网络的红外与可见光图像融合方法 19
4.1引言 19
4.2图像融合方案 20
4.2.1总体框架 20
4.2.2训练部分 21
4.2.3融合阶段 23
4.2.4损失函数 24
4.3 实验分析 25
4.3.1 开发工具及平台的选择 25
4.3.2 结果分析 25
5 总结与展望 25
5.1 总结 25
5.2 展望 25

1 绪论
1.1 目的和意义
随着光学成像技术的进步,为目标的检测与识别提供了更为稳定的图像数据来源。目前,各种不同类型的光电探测器已经被广泛应用于目标探测和识别系统之中,并发挥着重要作用。但是,在复杂的场景下,仅由单一传感器捕获的图像只能从有限的视角描述成像场景,这大大限制了目标的探测和识别能力。为了提高系统性能,需要充分利用各种传感器所采集到的大量数据信息进行分析、处理和综合应用。通过充分利用多个传感器的操作特点,能够克服这些挑战。其中,基于互补原理的图像融合算法是一种非常有潜力的方法,具有广阔的应用前景。通过将来自各种不同配置或传感器的互补图像进行融合,可以有效地提高人类或计算机对成像场景的认识和理解。随着科学技术的发展,图像处理已成为一门综合性很强的学科,涉及到数学、物理、计算机科学、生物学以及社会学等众多方面。因此,在如计算机视觉和影像处理这样的领域中,图像融合技术展现出了广大的应用潜力。目前,图像融合已成为图像处理的重要方法之一。图像融合是一种将来自多个信号源的图像融合成一幅信息丰富、鲁棒性强的新图像的方法。这种方法可以将有用的信息整合在一起,增加图像中可利用的信息,并消除多个源图像之间的冗余信息,从而使融合生成的图像具有更强的表达力,有利于后续的处理,如目标检测、识别和跟踪等任务。目前,图像融合算法已经被广泛应用于军事、医学、遥感以及工业控制等众多领域。在图像融合的研究中,红外与可见光图像的结合成为了焦点话题。红外与可见光图像都属于高亮度图像,由于它们所包含的信息量较大,所以被广泛应用于军事及民用方面。红外成像技术能够清楚地捕捉到成像环境中的热量数据,利用这些数据,可以轻松地区分背景和显眼的热目标,从而在图像中更为明显地突显这些目标。因此,红外与可见光两种传感器的互补优势使得红外图像成为最常用的一种图像形式。红外成像技术可以全天候、连续不断地获取,并展现出良好的抗干扰能力,但它的不足之处在于缺少纹理的细节;可见光图像虽然表现为光谱线形复杂的色彩特征,但是由于没有明显的光散射现象,因而不适合于远距离探测和识别目标。从另一个角度看,可见光图像更多地所示了物体对光的反射特性,这不仅能所示更多细节丰富的环境信息,而且也符合人类视觉感知的特性。
这些图像包含了丰富的结构信息,但由于容易受到环境因素的影响,可能会失去目标。这两种图像由于各自的优势,都能为人们提供大量有用信息,从而提高了应用价值。因此,将红外和可见光图像进行综合处理,不仅可以突出红外图像中的显著目标,还能有效地保留可见光图像的细节和纹理信息,从而使得得到的图像信息更为丰富,并更符合人类视觉的观察特点。本文首先介绍了国内外研究现状,然后分析了融合算法及应用前景,最后提出一种基于多尺度小波变换和模糊理论的红外与可见光图像的融合方法。融合技术能够应用于视频的安全监测中,助力于确定嫌疑人、不合规的车辆或如热武器这样的重要热源目标。红外与可见光图像的融合技术不仅有助于提升视频安全监控系统的准确性和实时响应能力,还能为公众的生命财产安全提供更为全面和高效的保障。本文所做工作对于推动红外与可见光图像数据融合理论研究以及实际工程应用具有一定意义。此外,红外与可见光图像融合技术在夜间驾驶中的应用,有潜力为驾驶员带来更为出色的驾驶体验,并增强夜间道路行驶的安全与便利性。因此,近年来,基于不同传感器数据的图像融合算法层出不穷,并取得了不错的效果。可以预期,随着图像融合技术的不断进步和完善,它将在更多的领域中产生更大的价值和影响。
1.2 研究现状
在遥感图像的分析和处理领域,图像融合技术最初得到了应用。由于它具有突出地物特征及增强影像空间分辨率的作用,因此在遥感信息提取、目标识别方面得到广泛地应用。在1979年,Daliy及其团队首次将雷达图像与Landsat.MSS图像结合,用于地质的解读,这一处理流程可以被视为最基础的图像合成方法。随着计算机技术和图像处理理论的发展,对不同波段或同一波段在不同时间采集到的多种数据,通过计算机自动综合,以达到更精确地识别目标物并提取有用信息的目的成为可能。在1981年,Laner和Todd进行了Landsat.RBV与MSS图像信息融合的实验性研究。由于当时对图像融合算法没有一个统一而有效的标准,导致该领域的发展很不平衡,至今还未出现一种公认的理想的融合方法。到了20世纪80年代的中后段,图像融合技术逐渐受到大众的瞩目。有研究者开始尝试将此技术用于遥感多谱图像的分析和处理。例如,在1985年,Cliche和Bonn成功地将Landsat-TM的多光谱遥感图像与SPOT卫星捕获的高分辨率图像进行了融合。此后,国内外许多学者对该领域做了大量的工作并取得一定成果。
从90年代开始,伴随着众多遥感雷达卫星的成功发射,图像融合技术逐渐成为遥感图像处理与分析领域的焦点之一。目前国内外已有多种基于不同原理的图像融合算法被提出来。早期图像融合技术主要包括HIS变换、加权平均、差分与比率差分、主成分分析以及高通滤波等多种方法。由于上述算法不能很好地适应复杂场景下地物特征信息变化较大的特点,因此,它们只能用于较小目标或低纹理区域的融合处理。在融合过程中,这些技术不会对参与融合的图像进行分解或变换,而是仅在单一层面上进行融合处理,这被认为是一种相对简单的图像融合手段。到了20世纪80年代中段,人们提出了基于金字塔分解的图像融合技术,这其中涵盖了拉普拉斯金字塔、梯度金字塔和比率低通金字塔等方法,并开始将这些图像融合技术应用于常规的图像处理领域,如可见光图像、红外图像和多聚焦图像等。自90年代开始,小波理论得到了广泛的应用,这使得小波变换技术成为图像融合的新工具,推动了图像融合技术研究的持续增长,并在多个领域得到了应用。目前,图像融合已经成为计算机视觉和模式识别领域中一个非常活跃的分支。自2005年起,多传感器视觉系统的可行性逐渐增加,这得益于硬件和处理器能够支持更为复杂的数据融合方案,以及低价传感器技术的出现。因此,图像融合技术成为当今国际学术界的一个热点研究课题之一。无论是从定性角度还是定量角度,图像融合系统都展现出了显著的优越性,这使得图像融合技术从一个简单的融合方法成功地演变为一种成熟的技术手段。
1.3 课题内容
学习设计并开发出一个基于深度学习的图像融合系统。了解图像融合的应用领域和科研成果。通过Python 等语言来设计并实现图像融合系统。具体实现:
1.系统学习图像融合的基础理论,包括像素级、特征级和决策级的融合方法。
2.构建图像融合数据集。
3.搭建深度学习模型进行图像处理。
4.以训练好的深度学习模型为核心完成系统的设计。

2相关理论基础
2.1 web相关技术
2.1.1 Vue
(1)什么是vue
vue是一个渐进式的javascript框架,用于构建用户界面的UI。渐进式框架意味着可以逐步、由浅到深地使用这个框架,该框架可以逐步引入项目。
(2) vue的优点
1.体积小:经过压缩大约33k后,由于其小巧的体积,下载的速度变得非常迅速。2.基于虚拟dom的运行效率更高,这是一种通过javascript预先完成各种运算,从而计算并优化最终DOM操作的方法。所指的虚拟dom实际上是对真实dom的一种仿真模拟。与直接操作真实的dom相比,创建了一个虚拟的dom树结构,将各种数据和操作直接集成到这个虚拟的dom树中,然后再将这个虚拟的树修改应用到真实的dom树中,这有助于减少dom的操作次数,从而提高性能。这样可以更频繁地操作虚拟节点,并在一段时间内一次性同步修改到真实的dom节点。
3.双向数据绑定,这使得开发者无需再操作dom对象,可以将更多的注意力集中在业务逻辑上。
4.生态丰富,在相对简单的市场环境中,存在众多稳定且成熟的基于vue的UI框架供人们使用,以达到快速开发的目的。这是由中国人开发的,并且中文的资料非常丰富。

图2.1 vue3新特性
2.1.2.库和框架的区别
(1)库
从根本上讲,这是一系列函数的集合。在js中,jQuery是最具代表性的例子。jquery在本质上是一个封装了dom操作并简化了dom操作的工具库,每次调用函数都会实现一个特定的功能,然后将控制权交给使用者。
(2)框架
框架为提供了一套完备的解决策略,而在使用框架时,必须严格遵守其内部规定,确保代码被放置在框架的适当位置,并在适当的时机进行代码调用。如果你想编写一个新的应用程序,那么必须要知道该如何去构建它。Vue的代表。某一框架会设定其特定的编程策略,具有较高的侵入性。
2.2 SpringBoot
(1)Spring的优点分析
Spring实际上是Java企业版(Java Enterprise Edition JEE,也被称为J2EE)的一个轻量级的替代版本。它可以使开发人员在不需要增加代码量或额外修改程序结构的情况下提高应用程序效率和质量,并且还能降低对硬件设备性能要求,减少系统开销。不需要开发重量级的Enterprise JavaBean(EJB) Spring,这为企业级Java开发提供了一种相对简单的方法,通过依赖注入和面向切面编程,用简单的Java对象(Plain Old Java Object POJO)实现了EJB的功能。
(2) Spring的缺点分析
尽管Spring的组件代码具有轻量级特点,但其内部配置却相当重量级。如果要在一个大型应用中实现对多个不同类型、异构平台和系统间复杂业务功能的集成,那么需要使用多种技术来完成这些功能,其中最关键的就是采用各种不同的组件配置技术。最初,Spring采用了XML进行配置,并且配置了大量的XML。Spring 2.5采纳了一种基于注释的组件扫描技术,这大大减少了对应用程序内部组件的显式XML设置。在这种情况下,如果不进行配置,则会导致严重的错误。Spring 3.0采纳了一种基于Java的配置方法,这种方法是一种类型安全的可重构配置方式,能够替代XML。所有这些设置均反映了开发过程中的损失。如果没有一个合适的方法来管理这种损耗是非常困难的事情,因为很多情况下它们会导致系统崩溃或者无法正常使用。由于Spring的特性配置与解决商业问题之间需要进行思维的转换,编写这些配置实际上占据了编写应用程序逻辑所需的大量时间。如果要保证代码的可移植性,则必须考虑到对软件开发人员造成的损失以及所花费的代价。Spring与所有其他框架一样具有实用性,但与此同时,它所需要的回报也相当可观。由于每个项目都需要花费大量资源来完成代码的编译以及调试,这使得项目执行周期过长并且很容易出错。此外,项目的管理依赖也是一项既耗时又耗力的任务。因此开发团队需要花费大量精力来完成对代码的优化。在构建环境时,不仅要分析需要导入哪些库的坐标,还需研究与这些库有关联的其他库的坐标。如果选择了错误的依赖版本,可能会导致不兼容的问题,这将严重影响项目的开发进度。POJO成功地实现了EJB的功能。
(3)SpringBoot解决上述Spring的缺点
SpringBoot对Spring的不足之处进行了改进和优化,采用了“约定优于配置”的理念,这使得开发人员无需在配置和逻辑业务之间切换思维,可以全身心地投入到逻辑业务的代码编写中,从而极大地提高了开发效率,并在一定程度上缩短了项目的周期。

2.2 深度学习
2.2.1 卷积神经网络
近几年,卷积神经网络(CNN)在图像处理这一领域的应用经历了显著的进步和发展。其主要是通过学习输入图像中各个像素与其邻域内其他像素之间的相关性来提取相关信息的一种机器学习方法。自1968年起,便有研究者提出了反向传播(Back Propagation BP)这一算法。该算法通过对输入图像进行多次循环迭代学习,最终达到收敛目的,具有很好的分类性能和泛化能力。在1998年,LeCun及其团队采用了特定的BP算法来训练LeNet-5网络。这个网络模型是一个经典且基本的模型,如图2.1所示的那样。从图中可以清晰地看到不同层级之间的互动和特征图的变化,这为卷积神经网络的初步发展奠定了基础,并标志着CNN的正式诞生。

图2.2 LeNet-5网络结构图
从图2.2可以观察到,LeNet-5网络最初是作为输入层存在的,主要用于输入源的图像数据等信息,网络的中间五个层次是卷积层、池化层、卷积层、池化层以及全连接层,而输出部分位于最后。本文主要介绍了深度学习中一种新的模型——卷积神经网络图结构,并对其特点和功能进行详细阐述。卷积神经网络的工作原理是:通过连接的网络,将原始图像数据逐层前移,最终得到输出,然后使用BP算法进行反向传播以更新参数,整个过程都在损失函数的限制下进行。该模型主要针对图像的特征提取与处理问题而提出的。为了确保网络满足使用标准,必须使用大量样本进行学习。这样,经过训练的网络能够识别输入图像的特性,并将其应用于如语义分割、图像增强、图像分类和目标检测等多种任务中。
2.2.2 残差网络
随着深度学习技术的持续进步和广泛应用,研究人员正在探索如何通过深化网络来更有效地提取特征,他们相信网络的深度越大,特征的提取效果就越佳。因此研究人员对网络结构进行了大量改进。然而,很快人们意识到,随着网络深度的不断增加,网络训练的准确性可能会进一步下降,同时测试结果的误差也可能会增加,这可能导致网络的退化。因此有必要对网络进行优化,使得网络能够保持较高的泛化性能以及预测精度。实验研究表明,随着网络的层数逐渐增多,误差在传递时会出现梯度的急剧增加和消失现象。为了避免这个问题,人们提出了一些算法。为了解决这个问题,有研究者选择了归一化的方法,并结合随机梯度下降技术,旨在增强网络的收敛能力,这种策略已经显示出了良好的效果。另外也有学者利用优化算法对神经网络进行改进,使其更适合于大规模的网络结构学习,从而达到减少误差,提高精度的目的。然而,这种方法仅适用于几十层的网络结构,在网络深度增加的情况下,误差问题仍然存在。因此对于多层网络而言,如何选择合适的阈值是一个非常重要的问题。为了克服前述的难题,何凯明在2015年设计了残差网络(ResNet),并在实践中获得了良好的反馈。ResNet采用了一种跳跃连接策略,其网络结构图如图2.3所示,其中(a)部分是用于浅层网络的单一残差块结构,(b)部分则是针对网络深度较大,即超过几十层的网络结构的瓶颈结构。

图2.3残差块的结构图
ResNet对于每一层的输入特征进行处理,形成残差函数,使网络更易优化。其表达式如下:

其中x表示残差块输入,W1和W2分别表示一、二层网络输出的权重,F(x)表示第二层的输出结果,H(x)表示没有经过激活函数前的输出,图中右侧通过跳跃连接恒等映射将输入引到输出。
3 红外与可见光图像融合模型
图像融合,作为信息融合领域的一个子领域,已经成为当前信息融合研究的焦点。随着计算机技术和图像处理技术的不断发展,图像融合已经成为信息处理研究领域中一项非常活跃的研究课题。通常情况下,图像融合的主要步骤涵盖了图像的配准和预处理、融合过程以及融合后的图像处理等环节。其中配准与融合都是为了获得一幅包含更多有效特征的高质量融合结果,因此在实际应用时必须根据不同要求选择合适的方法进行融合。在获取到需要融合的源图像之后,首先要在时空维度上完成源图像的配准工作。对于那些具有先验知识的图像对,可以在配准过程中加入先验知识的表达,然后根据预先设计的融合策略进行进一步的融合操作。本文在此背景下提出了基于多尺度小波变换与局部特征匹配相结合的图像融合方法。理论上,融合后的输出图像将包含所有输入图像的有用信息,这些信息可以直接用于人眼的观测,或者经过后期处理,即图像信息的应用,用于控制系统。

图3.1 图像融合过程图
概述了图像融合过程中基于信息流分级的三层架构,接着探讨了图像配准的几种技术,并在结尾部分对红外与可见光图像融合的经典方法进行了深入的介绍和优劣分析。
3.1 图像融合的三层结构
在真实的应用场景中,图像融合根据信息流的各种模式被分类为不同的层次。为了提高对信息的利用率和降低计算量,一般采用多级处理模式来实现。目前广泛接受的分类方法是将其分为像素级、特征级和决策级三个层次[28],正如图3.2所示的那样。

图3.2 图像融合过程的三层结构
像素级的融合是最基础的一步,它的核心思想是将源图像中的相关数据和物理参数进行整合。在这个融合过程中,每一个像素点都是基于经过配准的源图像的相应区域,并按照特定的融合规则来确定的。因此在实际应用过程中应首先对源图像进行特征提取,再将得到的信息作为基础对目标进行识别。特征级融合的方法是将从多个源图像中独立提取的特征聚合,形成一个全新的特征集合,并基于这一新的特征集合进行数据融合。决策层融合是从各个不同层次上对目标图像信息进行分析处理,得到最终结果。从原始图像中抽取的特性可能包括对比度、纹理属性以及图像的形态等。本文将这些特征按照一定的原则综合为一种或多种表示形式来表达。决策级融合指的是在图像信息处理的最高抽象层次上,运用认知模块来模仿人类的某些思维活动,这也被称作符号级融合。本文主要讨论了如何将两种或多种特征提取算法集成于同一平台上实现图像的决策层和目标层之间的多层次融合。需要强调的是,图像融合在不同的层面上并不是孤立的,实际的融合过程可能在各个层面上都是同步进行的。
3.2 图像配准及预处理
在实际应用中,图像融合技术能够呈现出复杂且明确的场景描述,从而增强了后续操作的准确性、稳健性和用户友好性。随着科学技术的不断发展,各种新的处理方法层出不穷,其中最重要的一种就是利用多个传感器对同一目标同时测量并获得两幅或多幅具有相同物理意义的数据信息,从而达到融合目的。然而,由于不同传感器在精度、成像条件和拍摄角度上存在差异,因此所能获取的图像在尺寸、拍摄视角和视野方面可能会有所不同。这就要求被融合的源图像在融合之前必须进行严格的几何对齐[29][30],这一问题被称为图像配准。本文对现有的一些经典方法作了简要介绍,并指出它们各自的优缺点以及适用场合。图像配准的核心目标是利用最佳的灰度和空间转换来达到图像之间的最优对齐[31]。
假设有I1和I 2两幅图像,设定I 1为参考图像,I 2为待配准图像,图像配准表示为:

其中I1(x,y)与I 2(x,y)为拟配准图像中对应位置的灰度值,函数g为灰度变换,函数f 为空间变换。
为了实现图像的配准,可以从硬件技术和软件算法两个角度来考虑。目前大多数的图像配准算法都需要大量昂贵的硬件资源,且不能适应不同应用场景的需求。从硬件角度看,通过部署如分束器这样的硬件设备,可以完成配准的任务。但由于这些设备在实际部署过程中成本较高且功能有限,它们并不具备实际应用价值。因此,科研团队推出了两种成本较低的图像配准技术,一种是基于像素的技术,另一种是基于特征的技术,正如图3.3所示的那样。

图3.3 图像配准方法分类
3.2.1 基于像素的图像配准
采用基于像素的图像配准技术,可以直接对原始图像进行灰度处理,并利用整个图像的像素强度数据来评定图像间的相似度。接下来,构建了一个参数模型,该模型可以确保图像之间达到最大的相似度。所使用的信息主要来源于像素的强度,而不是显著性结构。这种方法在描述细节特征较少的图像中是有效的,但可能导致图像的变形,并且处理过程具有较高的计算难度。因此本文提出一种改进算法——加权最小二乘匹配法,该算法将不同区域内像素点的相对位置作为输入向量,从而能够有效地降低运算量,提高运算速度。基于像素的技术主要分为三大类:互相关方法、傅里叶方法以及互信息(MI)方法。其中互信息量法可以得到更精确的结果。互相关方法涉及计算两幅图像中窗口之间的互相关关系,选择最大值的窗口作为对应关系。它不需要事先给定具体特征点或特定位置,只需通过简单操作即可完成。
Roche及其团队为了更准确地对多模态图像进行配准,采纳了基于概率分步的相关比相似度量标准,这大大增强了图像的视觉真实性和配准的准确性。傅里叶方法利用傅立叶级数展开得到频率域内的函数表达式来表示两图像之间的相似性。互相关技术因其在硬件上易于实施的特点,经常被应用于实时的配准系统中。本文首先介绍了常用于图像匹配的各种算法及其原理,然后详细阐述了目前几种常见的利用相互关来估计图像之间相似性的技术及各自特点。然而,在需要对图像窗口进行配准的情况下,如果窗口内存在一个相对平滑的部分或由于复杂的变换过程而未能凸显细节,那么互相关方法将不太适用。
傅里叶技术主要用于频域图像的傅里叶描述。它可以用来描述二维信号或图象中各个频率成分之间的相互关系以及它们在时间上的变化规律,因此得到了广泛地应用。其中一个代表性的方法是基于傅里叶位移定理的相位相关技术,这种技术最初是为了处理图像的平移问题而设计的,随后也被应用于图像的旋转和缩放处理[39]。在这种情况下,传统的互相关算法已经不再适用。相较于互相关技术,这种方法在配准效率和对噪声的鲁棒性上都展现出了明显的优越性。互信息方法采用互信息作为评估准则,旨在最大化待配准图像之间的统计依赖性,并据此构建像素间的匹配关系。由于互信息方法没有考虑灰度之间的相关性,所以它不适用于复杂背景下的目标识别。红外图像与可见光图像在纹理信息上有明显的不同,而互信息技术可能仅对两张图像中的某一部分有效。因此,在开始使用互信息技术之前,通常会优先选择那些引起关注的显著区域,如前景或具有相似边缘密度的区域。除此之外,互信息技术能够处理提取出的特征,而不是处理图像的强度。
3.2.2 基于特征的图像配准
基于特征的技术首先从原始图像中分离出两组显眼的结构,并确认它们之间的准确匹配,接着使用这些数据来估算空间的变化,并将这些信息应用于对指定的图像对进行校准。在本文中采用了一种新的算法来实现该过程,即通过使用一个简单而有效的模板和两个不同尺度的分类器来估计目标物体表面上可能存在的纹理特征。与其他技术相比,当处理外观发生改变或成像环境发生位移的图像对时,基于特征的匹配方法表现出更高的稳定性和处理速度。本文主要针对现有的基于特征的图像识别算法在目标跟踪过程中出现的问题提出改进方案。一般而言,基于特征的技术涉及三个主要步骤:首先是特征的提取,然后通过显著性检测来获取能够代表原始图像的关键特征;(2)特征描述是一种用于描述提取出的特征在方向、尺度等多个方面的描述符;(3)在特征匹配过程中,通过明确特征间的联系来确立原始图像的匹配关系,并对经过变换的图像执行插值操作。
基于特征的技术在其初始阶段必须获得代表原始图像对的共有特征数据。第二步则是将提取出的共同的特征与原图像进行相似度比较。红外与可见光的图像由于其全局特性,例如颜色和纹理,使得它们之间的匹配变得困难。第二步是通过提取出具有局部意义的结构特征来完成识别工作。因此,用于表示显著结构的特征,如边缘信息和轮廓等,是首选。其中,边缘信息是最受欢迎的选择之一,因为它的大小和方向可以在不同的模态下得到较好的保存。
对于获得的显著性特征,后续处理的目的是进一步确立它们之间的准确匹配。由于这些特征点中包含了许多不相关的数据点和冗余点等,使得传统方法难以准确有效地识别出所有的目标对象。仅凭特征点的地理位置来建立特征匹配关系是一项具有挑战性的任务。因为在某些情况下,由于没有合适的特征描述子,使得这些特征点间不能很好地吻合,从而影响到了匹配过程。因此,为了更有效地执行匹配任务,必须为每一个特征点设计一个合适的特征描述符。
在建立了图像之间的匹配关系后,有必要执行插值操作以确保图像像素的坐标始终保持为整数。由于不同类型的物体具有不同的特征点位置和形状,因此在插值过程中必须考虑这些因素,以提高插值效果。为了实现这一目标,可以采用多种常见的插值技术,例如双线性插值、最邻近插值和双三次插值等方法。

图3.4 一种基于边缘信息的图像配准流程图
3.3 红外与可见光图像融合经典算法
为了实现红外图像与可见光图像的完美融合,历史上已经有许多不同的融合技术被提出,这些技术大致可以被划分为传统的融合方式和基于深度学习的策略。本文对各种融合算法进行分析总结并指出它们各自的特点及存在问题。在这其中,基于深度学习的策略可以进一步细分为基于CNN的策略和基于GAN的策略等。
红外与可见光图像的融合技术因其卓越的性能和广泛的应用范围,吸引了大量信息融合领域的研究者,在前辈们的不懈努力下,这种融合技术已经取得了显著的进展。随着科学技术的发展和人类视觉系统理论的不断完善,人们对于融合结果的评价标准也不断提高,这就为融合算法的改进提供了广阔的前景。目前,红外与可见光图像融合的传统技术主要可以归纳为以下几种类型:基于稀疏表示、基于多尺度分解、基于显著性、基于子空间和混合方法等。本文主要针对上述几种常见方法进行分析和比较。每一种方法都有其独特的适用范围和特性,接下来将详细介绍目前主流的三种方法。
(1)基于多尺度分解方法
对一幅图像来说,可以采用多尺度分解的方法,从而获得一组具有相应尺度特性信息的不同分辨率的图像集合。针对这一特点,本文提出一种利用多个不同分辨率的子图像之间的相关性对其进行融合处理的算法,并给出相应的计算实例及仿真结果。这一操作基于对源图像在不同的尺度和分辨率上进行融合的方法,可以进一步细分为基于金字塔变换的融合方式和基于小波变换的融合策略。本文将详细介绍上述两种多尺度分解算法及其相应的集成应用。图3.5呈现了一个基于多尺度分解技术的普适框架,此框架主要涵盖了显著特征的测量、匹配、决策以及合并映射这四大部分。显著特征测量和匹配模块从多尺度分解中提取信息,然后将这些信息分配给决策和合并映射模块,后者会按照特定的方法组合得到图像特征信息,从而生成融合图像。

图3.5 基于多尺度分解的图像融合方法通用框架
拉普拉斯金字塔(LP)算法代表了金字塔转换方法的一个经典实例,其主要目的是将原始图像拆分为多个空间频带,并根据每个频带的详细特性选择合适的融合算子来实现图像的整合。在对该问题进行分析研究后,提出了一个新的改进方案,图3.6为呈现了LP方法的基本概念图。

图3.6 拉普拉斯金字塔融合方法示意图
LP算法的第一步是对原始图像进行高斯金字塔的分解。通过下采样和高斯低通滤波,得到了G0层(即金字塔的底部)。接下来,在其他层进行卷积运算,去除偶数行和偶数列后,可以将顶层图像GN分解出来:

式中:N为金字塔最高一层的编号,C和R分别是金字塔第l层的列数和行数,核ω是 一个5×5的二维可分离窗口函数,如下式:

在利用G0 G 1 … G N构建了融合图像的高斯金字塔之后,当前层的图像大小达到了前一层图像大小的四分之一。接下来,需要对图像进行拉普拉斯金字塔的分解,并采用Gl内插技术,从而获得放大后的图像G*l,确保其尺寸与Gl−1保持一致:

接着用构造出的金字塔每一层图像与Gl其上层图像Gl+ 1经过内插后的放大图像Gl+1 *作差所示:

式中:N为LP顶层编号,。
最后经过逆金字塔转换操作即可获得所需的融合图像:

金字塔转换技术的一大优点是,它能够为图像提供清晰的对比度变动信息,这种变动往往能够吸引人们的目光。此外,其对噪声具有很强的鲁棒性。此外,它还具备进行空间频带定位的功能。因此,金字塔转换方法被广泛应用于图像处理领域。但是,这种方法在图像融合的过程中还存在一些不足,其中一个问题是对图像局部细节的描述不够全面。
在图像融合研究的早期阶段,金字塔算法已经取得了显著的进展,然而,随着小波方法的出现,基于金字塔转换算法的优越性逐步被削弱。本文通过分析比较几种常用的小波分解方法,并结合红外、可见光图像各自的特点,对传统金字塔模型进行改进,设计出一种新的红外和可见光图像融合方案。目前广泛接受的红外与可见光图像融合框架,基于小波变换,如图3.7所示。

图3.7 基于小波变换的红外与可见光图像融合框架
与金字塔融合技术相比,小波变换方法具有明显的优点:它通过小波分解引入了方向性信息,但金字塔转换技术则无法包含这些方向性信息;(2)在使用金字塔方法进行图像融合时,如果输入图像之间的差异很大,很容易产生人为的边界效应,但小波变换方法则不会这样做;(3)通过小波变换的融合,可以获得更高的信号到噪声比。然而,小波方法的局限性在于它需要较高的先验知识,比如选择分解尺度和重构滤波器系数,这些因素将直接影响融合结果的质量。
(2)基于稀疏表示方法
这种方法首先采用过完备字典来表示源图像的稀疏系数,然后按照特定的融合准则对这些系数进行整合。在此基础上,通过分析和计算各分量之间的相似度并选择最接近目标区域的分量作为下一次迭代时的观测量,以达到提高算法收敛速度的目的。最终,采用了完整的字典来处理合并后的新稀疏系数,并重新构建了图像。实验结果表明本文算法能够在保持较好视觉效果的同时有效地提高了重构精度,尤其适合于高噪声背景下红外/可见光图像的融合。图3.8所示了一个基于稀疏表示的红外与可见光图像的融合过程。

图3.8基于稀疏表示的红外与可见光图像融合流程图
这种方法通常涵盖了四个核心环节:层次化处理、稀疏表示、字典的构建以及数据融合和重构。本文提出一种基于多层结构学习的自适应超分辨算法来实现多光谱遥感影像超分辨率重建。鉴于整幅图像所包含的信息量相当庞大,直接构建一个过完备的字典变得相当困难,因此有必要对其进行层次化处理,也就是在局部图像中实施稀疏表示。本文首先采用分块思想将原整幅图分解成若干个子区域,然后再根据不同子块所含信息内容以及它们之间的相似性来确定每个子区域分割后的重要性权值系数。假定存在可见光图像Vi和红外图像Ir,它们的尺寸都是M×N。通过计算它们之间的相关系数来判断两者是否存在相关性。在进行图像融合的过程中,主要任务是将原始图像之间的互补信息进行整合,因此,对图像的细节纹理和特征结构的关注显得尤为重要。针对以上问题,提出一种基于多尺度小波变换的图像去噪方法。
首先,利用“滑动窗技术]”对原始图像进行了分解,从而获得了相应大小的图像块,接着,将这些图像块按照列向量进行了展开。为了避免对相邻像素重复投影运算,引入了一个新的基函数作为基矢量来计算每一幅图之间的相似度。然后,结合了追踪算法和已经学习完善的过完备字典D,从而确定了源图像的稀疏系数。通过计算这些稀疏系数与参考图之间的相关系数来确定最优匹配对集,并利用这个结果作为下一步的输入条件。接下来,依据融合规则对稀疏系数进行加权处理,从而确定融合系数。在此基础上提出了一种改进的自适应阈值法用于对原图像进行分割。最终,采用了融合系数和过完备字典D来对图像进行重建,从而获得了一个融合后的图像。实验结果表明本文提出的方法是可行和有效的。采用基于稀疏表示的技术,能够有效地减少噪声,并在源图像中维护有意义的特征。实验表明,与其它算法相比,该算法在保持原有特性的基础上提高了运算速度,增强了视觉效果。然而,这种方法也会受到图像块尺寸和融合规则等多种因素的制约,因此容易出现图像模糊和伪影边缘的问题,同时也需要更多的计算资源和时间。
4 基于残差网络的红外与可见光图像融合方法
4.1引言
红外和可见光的图像融合技术在多个领域如计算机视觉、遥感技术、医学成像技术以及军事探测中都得到了广泛应用。传统的融合算法大多采用单一传感器获取两幅甚至多幅图像,存在一定的缺陷,难以取得理想的效果。将红外图像与可见光图像相结合的优势体现在:可见光的图像中蕴含了丰富的纹理细节,而红外图像在光线不足或被严重遮挡的情况下仍能凸显热目标。考虑到这两者之间的强烈互补性,融合后的图像能够展现热目标和丰富的背景信息。因此,如何充分利用两种来源不同的图像信息是当前研究的热点之一。为了在一幅图像中所示来自不同来源图像的互补信息,本研究提出了一种依赖于残差块的图像融合技术。这种方法在不产生伪影的前提下,能够有效地提取图像的特征,并在很大程度上保留了原始图像中的信息。实验结果表明该算法具有较高的精度与可靠性。本章的工作内容主要涵盖了以下几个方面:
(1)将残差模块引入到网络编码器中。在编码的过程中,加入了三个残差块和跳跃式连接,这使得编码器能够展现出更为丰富的特性。
(2)将基于注意力机制的模型引入特征融合阶段。与传统的加权平均或求和叠加融合方法不同,本研究采用了注意力机制模型,以更有效地融合红外和可见光图像中的信息。
(3)利用跳跃连接技术,可以将第一和第二层得到的特征图传送到对应的反卷积层进行进一步处理,从而更精确地获取原始图像的细节信息,并最终生成效果更佳的融合图像。
4.2图像融合方案
4.2.1总体框架
图4.1所示了一个融合框架,它由以下六个部分组成:源图像输入、编码器、特征融合、解码器、融合后图像以及损失函数。编码时将原信号分解成不同尺度上的分量并进行加权求和得到最终结果。在无需监督学习的前提下,这种编码器与解码器的结构展现出了出色的重构能力。

图4.1基于残差块的的融合框架
更具体地说,使用公开的数据集来训练一个带有残差块的编解码器网络,并利用这个经过训练的模型对两张原始图像进行编码处理。为了提高编码器输出图像质量,本文提出一种基于深度学习框架下的混合编码方法。通过第一层和第二层的卷积,得到了具有不同纹理细节的特征图,即浅层特征。而在第三层卷积后,得到的是中间特征。在第三层之后,添加了三个残差块,并在这两个残差块之间采用跳跃连接方式,重复利用了第三层卷积和第一个残差块的结果。这种方法不仅加深了网络的结构,还有效地利用了中间特征的信息,从而获得了更深层的特征。第二部分是基于深度学习的特征选择与特征提取。特征融合是由两个主要部分构成的:首先是通过注意力机制提取深层特征并生成两张注意力力图,接着是对这两张注意力力图进行特征整合。这些深度的特征进行了融合,从而产生的融合数据可以被视为一个关键信息。为了使整个系统能够更好的工作,本文采用了基于神经网络的编码器和解码器相结合的方法来实现深度学习模型。解码器的组成部分是由三层反卷积构成的。尽管第一和第二层卷积能够获取大量的细节信息,但在网络深化的过程中,信息的丢失是不可避免的。因此,浅层特征在生成融合图像时也具有同等的重要性。解码器部分还加入了跳跃连接机制,使得在解码过程中也能有效地利用这些浅层特征,从而生成最终的融合图像。
4.2.2训练部分
本研究指出,在网络的训练过程中,仅涵盖了编码器和解码器这两个部分,而没有融合部分,正如图4.2所示的那样。由于采用压缩感知算法,所以可以将整个过程简化为一个迭代优化问题。在训练过程中,主要目标是优化编码器部分以更有效地提取特征,并确保解码器能够准确地重建原始数据集,同时最小化重构误差,因为重构误差越小,所提取的特征就越具有代表性。由于网络结构简单,所以适合于大规模数据集上使用,并能获得很高的精度。训练网络是由编码、解码以及两个跳跃式连接所构成的,接下来将详细描述每个模块的功能。

图4.2 整体训练结构
1)编码器部分:该训练数据由三层卷积和三块残块构成,其输入数据的大小达到了256×256。对每一个卷积层使用了不同深度的卷积核进行处理。第一卷的积层大小并不会改变输入图片的尺寸,而第二卷和第三卷的积层则是输入尺寸的一半。利用这个方法可以很好地将输入图片与目标图进行区分。为了补偿在卷积过程中遗失的图像细节,利用残差网络进一步复用了之前的特征。同时引入两个反向传播神经网络对整个网络结构进行微调。此外,在这个网络里,在最后一个卷积层后面加入了三个残差部分。这样就可以利用每个卷积层上提取到的边缘来计算出整个图片的梯度值。所有的卷积操作都被用作特征提取工具,确保源图像的纹理和结构信息得到了完整的保留。同时由于采用多个不同尺度的子带对数据进行处理,因此可以得到更好的性能。编码器输出了256个中间特征,其尺寸为64×64,并且保留了更多的原始结构细节。
2)残差块:编码器部分新增了三个残差块,这具有双重功能:首先,确保在深度网络中的训练能够达到最佳的收敛状态;二是从原始图像得到更多有用的细节特征。第二点是更有效地运用第三卷中积层生成的中间特性。实验结果表明,这种方法提高了编码效率,也使得解码后图像更加清晰美观,具有较高的实用价值。如图4.3所示的那样,通过采用跳跃连接方式,可以将第一个残差块的输入和输出分别与地三个残差块的输入和输出相连接,这种方法能够更有效地利用中间层的特征,从而更准确地提取特征信息。

更多推荐