基于神经网络的机器人视觉导航

本文设计并实现了一种基于全景视觉与循环神经网络（RNN）的移动机器人导航系统，包含地图构建、路径规划与导航控制三大模块。通过全景视觉快速获取环境信息并建立栅格地图，结合广度优先搜索与Voronoi骨架图两种RNN-based算法进行路径规划，在蛟龙机器人平台上验证了系统的有效性。实验结果表明，两种算法在实时性与安全性上各有优势，适用于不同应用场景。

n7o8p

537人浏览 · 2025-10-10 11:30:17

n7o8p · 2025-10-10 11:30:17 发布

基于神经网络的机器人视觉导航估计与目标定位

1 引言

导航技术是移动机器人研究的核心，也是实现移动机器人完全自主化和智能化的关键技术。导航是指移动机器人在有障碍物的环境中，通过传感器感知环境和自身状态，自主寻找一条无碰撞的最优或近似最优路径的自主运动过程。导航技术需要解决两个问题：(i)找到有效且实用的传感器检测手段及处理方法，并建立环境地图模型；(ii)采用快速有效的路径规划算法，以找到一条最优或近似最优的安全路径。在众多环境检测传感器中，全景视觉传感器具有信号检测范围广、信息获取快速完整的优势。仅需一个摄像头即可观测以机器人为中心、一定半径范围内的360°全景环境，不仅能够快速获取环境信息，而且显著降低了系统设计的复杂性。显然，这是构建环境地图的一种有效手段。传统的路径规划方法，如人工势场法，通过障碍物形成虚拟斥力、目标物体形成虚拟引力来实现移动机器人的路径规划。然而，在复杂环境中容易产生意外的局部极小值，可能导致规划失败。而基于回归神经网络(RNN)的规划方法具有高并行性和丰富的动态特性，已在智能物流、机械臂操作和移动抓取等领域得到广泛应用[1]。

示意图0

机器人视觉导航技术如图1所示。室外机器人操作通常配备视觉感知设备，用于机器人定位-、自-状态估计和障碍物检测[2,3]。大多数室内机器人操作采用同时定位与地图构建方法。机器人在未知环境中同时进行建图和定位[4]。尽管该方法具有较高的精度，但仍存在累积误差和计算量过大的问题。此外，根据获取的环境信息设计逻辑以获得最优导航指令也是一个难题。谷歌DeepMind项目团队的 Bison等人[5]提出了一种基于确定性策略梯度的“行为‐评论”无模型算法，提高了算法的泛化能力。斯坦福大学的Tejera等人[6]改进了“行为‐评论”算法，提出了 AI2‐THOR框架，提供逼真的场景和物理引擎环境，并提供了大量实验样本以提升算法效果。卡内基梅隆大学的Pal等人[7]于1988年提出了三层反向传播网络 ALVINN。ALVINN将摄像头和激光测距仪的图像作为输入，输出车辆应行驶的方向，从而实现路径跟随。实验表明，在特定场地条件下，该网络能够有效跟随实际道路。卡内基梅隆大学的Delarboulas等人[8]利用专业无人机飞行员操作采集了一组数据在不同环境中设置训练集，并从单目相机获取的图像中提取特征信息，用于视觉导航以避开森林中的树木。Pleshkova 等人[9]来自苏黎世联邦理工学院，构建了森林路径的数据集，并设计了一个八层神经网络作为分类器。通过单目相机获取的图像可直接经由神经网络得到导航方向。飞机沿林间路径飞行。彭等人[10]改进了上述方法[8]，提出了一种具有两个分类器的18层网络 TrailNet。将单目相机获取的原始图像作为输入，除了直接输出导航方向外，还输出其相对于路径中心的位置，从而增强了算法的鲁棒性。该文章还使用YOLO[11]检测算法进行行人检测，实现了视觉导航与目标检测的效果。

本文的主要工作集中在基于全维视觉的移动机器人导航系统的设计与实现。该系统具有建立全局环境地图、路径规划以及引导机器人导航的功能。其开放式结构和良好的人机界面有利于软件扩展和系统调试，并且是移动机器人导航器实际应用的重要组成部分[12]。如图 1所示，导航系统包含三个核心模块：(i)地图创建模块与全景视觉传感器通信，接收图像信息后分析处理障碍物信息并提取障碍物信息，并在内部全局地图中记录障碍物的位置；(ii)路径规划模块，内置基于RNN的两种规划算法，能够根据全局地图信息快速-找到最优或可行路径；(iii)导航模块，可调用路径规划模块进行离线或在线路径规划，然后根据路径规划模块输出的路径节点序列，将导航任务分解为顺序状态序列，通过状态间的切换表示路径点之间的切换，并控制移动机器人执行导航任务。该导航系统各模块的设计与实现在图2中进行了描述。

示意图1

本文首先描述了导航系统的架构，然后详细阐述了如何利用全景视觉传感器探索环境并构建全局地图；基于RNN和Voronoi骨架图的广度优先搜索路径规划算法原理；以及如何根据规划路径实现三种导航。最后，通过在蛟龙移动机器人平台上的实验，对导航系统的有效性进行了评估，并对两种规划算法进行了分析、比较和讨论。

在过去的几十年里，基于深度学习-的方法由于其先进性而受到研究人员越来越多的关注。-这些方法被广泛应用于各种领域，包括医学领域[13–15],工业领域[16–19],以及许多其他领域。Nair 等[20]已经提出了一种基于区块链的技术，旨在减少能耗。在规划机器人路径时，需要大量的计算，这反过来需要一个高度可定制的系统，并导致产生大量功耗。通过利用区块链技术，这种能耗可以得到显著降低。

Capi et al.[21]提出了一种基于神经网络路径规划的机器人导航策略’。该方法利用全球定位卫星（ GPS）和指南针传感器引导机器人从起始位置到达最终目的地(GPS)和指南针传感器来引导机器人从其起始位置到其最终目的地。为实现从起点位置到目标点的移动，使用GPS和传感器数据对深度神经网络进行训练 Djenouri等。[22]提出了一种基于深度学习的工业平台视觉导航方法。在制造业中，通常使用计算机辅助设计软件或工程图纸来定位设备。在本研究中，开发了一种基于图像的导航系统。该系统利用卷积神经网络（CNN）提取相关特征。然后利用这些特征构建聚类。图像通过局部特征在聚类内进行区分，通过全局特征在聚类间进行区分。

一种基于深度学习的-移动机器人导航系统，特别适用于室内环境，由Foroughi 等人提出-。其中，卷积神经网络（CNN）用于从图像中提取特征，首先在真实环境的拓扑图上训练一个深度学习模型，然后结合卷积神经网络（CNN）与拓扑图来计算移动机器人的距离及其位置。

2 研究方法

2.1 基于全景视觉的地图创建

传统的视觉检测方法主要使用传统镜头相机直接获取场景信息[24]。该方法的主要问题是视场角较小，只能获得有限视场内的局部-信息。为了获得大视场的场景图像，只能通过单镜头旋转或多个普通镜头的水平组合来获取全景图像。因此，系统设计复杂，实时性较差[25]。

全景视觉技术利用光学反射原理来扩展视觉系统的视场。在全景视觉系统中，摄像设备并不直接观测外部环境，而是朝向一个凸面镜(全景视景器)，该凸面镜通常安装在摄像设备镜头的正上方[26]。根据镜面反射原理，远处物体发出的光线经镜面反射后通过成像设备的镜头，在以机器人为中心的一定半径范围内形成物体的全景图像(即，全景视觉)。然后，可根据颜色范围提取图像中的感兴趣区域，并记录这些感兴趣区域的特征(如位置、面积、障碍物距离等等。)，用于后续分析。因此，仅需一个摄像设备即可观测机器人周围的360°全景环境，能够快速准确地检测周围环境信息，同时大幅降低系统设计的复杂性[27]。

地图创建过程如下：first，视觉处理软件接收全景视觉系统的数字图像信息，然后进行图像处理(增强、恢复、编码)；接着，预处理数据被传递给导航器的地图创建模块。该模块使用斑点算法进行图像识别(将图像分割为不同区域，并进行特征提取和分类)[28]并提取机器人本体局部坐标系中障碍物的位置信息；finally，将地图中全局位置的障碍物转换为二值栅格地图。

2.2 基于RNN的路径规划模块

创建栅格地图后，如何选择合适的路径规划算法非常重要。对于移动机器人的导航任务，算法需要在实时性、有效性和路径安全性方面满足较高要求。基于循环神经网络的规划算法不失为一个良好的解决方案。下文将介绍该模型机制及两种搜索算法。

RNN具有高度的并行性和丰富的动态特性[29]。对于由网格地图表示的二维有界环境，RNN的神经元被逐个映射到网格上。因此，神经元之间的局部连接表示网格环境中的连通性。本文定义为fined that RNN中的每个神经元都与周围的八个相邻神经元节点相连，构成一个八邻域连接。

2.2.1 广度优先搜索算法

该算法首先使用顺序光栅扫描方法获取RNN中每个节点到最近障碍物节点的八-连通距离，然后设计安全路径函数，根据机器人本体的半径选择安全参数，并利用该函数抑制靠近障碍物的神经元。元-节点连接权重增加了机器人通过障碍物附近区域的代价[30]。当RNN中建立了稳定的神经元状态输出势场后，从起始节点开始，搜索相邻非-障碍物节点中输出最大的节点，然后按照广度-优先遍历的顺序向外扩展，直到搜索到达目标节点为止。如果起始节点与目标节点之间存在可行路径，则该算法可确保通过一次搜索获得路径，且算法复-杂度仅为 O(N)。

安全路径函数 f(di) 的设计如下[31]：首先根据环境离散化时的网格大小以及机器人自身的尺寸选择安全距离阈值 Dsafe，然后使用顺序光栅扫描方法计算非障碍物神经元。di 表示节点 i 到最近障碍物神经元的八连通距离。当 di 不大于 Dsafe 时，机器人无法通过该节点，f(di)=+∞；如果 di 大于 Dsafe，则可以通过该节点。参数 ks 的作用是尽可能限制规划路径不经过狭窄长通道。其公式由以下方程表示：

$$
f(d_i) =
\begin{cases}
+\infty & \text{if } d_i \leq D_{safe} \
e^{-k_s(d_i - D_{safe})} & \text{else}
\end{cases}
$$

2.2.2 Voronoi骨架图算法

沃罗诺伊图是非障碍空间中的一组轴线的集合。因此，沃罗诺伊图的维度远低于机器人工作空间的维度。如果仅使用沃罗诺伊图进行路径规划，可以大幅减少搜索时间。然而，基于沃罗诺伊图规划的路径冗余较高。

因此，如果将路径长度作为性能指标，该算法的最优性较差。然而，在实际应用中，需要充分考虑机器人运动的安全性，而使用Voronoi图可以确保机器人运动具有更宽的通道。

RNN上的所有障碍物神经元构成一个集合，其中不同神经元“支配”区域的交界点是沿水平或垂直方向的局部极小点。这些极值点通过局部比较、细化和扩展操作找到。由低值点出发，连接这些点构建Voronoi骨架图，然后使用广度优先搜索方法在属于该骨架图的神经元节点集合中寻找可行路径。

2.2.3 导航模块

导航模块的主要功能是根据地图创建模块构建的地图信息，调用路径规划模块进行离线或在线路径规划，获取输出路径节点序列，然后将其解释为序列状态序列，以控制机器人实现导航ffl[32]。

然后，通过具体方法将导航的执行过程描述为一个顺序状态序列：定义若干状态，每个状态包含多个基本行为，例如向目标移动的行为。这些行为将当前路径节点作为目标引力向量，并生成相应的行为以引导机器人前进。通过自定位模块（如里程计）反馈的实时信息判断机器人是否已到达当前路径节点后，触发事件当前行为状态向下一个行为状态的迁移，并生成向前移动到下一个路径节点的行为，直到到达目标区域。因此，导航的执行过程可以描述为一个状态机，其中状态作为节点，事件触发作为转换-过程[33]。

3 研究结果

基于全景视觉的地图探索方法能够快速、准确地定位环境中的-障碍物；同时，基于RNN的路径规划方法能够确保优化路径的-可达性[34]。接下来将使用蛟龙移动机器人设计实验。对于相同的环境地图以及相同的起点和目标点，采用广度-优先搜索方法和Voronoi骨架图方法-进行路径规划与导航，以验证导航系统的有效性，并对两种算法的规划性能进行分析和比较。

导航系统软件安装在“Jiaolong”移动机器人的上位机中。该设备配置为一台P41.4 GHz频率和256 M内存的笔记本电脑。Table 1 显示了环境与任务参数。

环境变量	参数
地图尺寸（栅格）	200 × 200
网格面积 (mm × mm)	100 × 100
起点坐标	(77,151)
目标点坐标	(9,171)

针对广度-优先搜索方法，为了确保路径的安全性，实验设计了两组安全参数以验证其对规划路径的影响[35]。安全距离阈值Dsafe在表2中反映了障碍物附近神经元连接权重的抑制程度，而ks的作用是尽可能限制规划路径穿过狭窄长通道。Voronoi骨架图方法无需预设安全参数。

示意图2

示意图3

示意图4

“蛟龙”机器人在两种规划算法下的导航轨迹如图3–5所示。黑色方块是通过全景视觉探测获得的障碍物，黑线是机器人根据规划路径生成的轨迹。可以看出，对于相对较宽且较长的障碍物，基于RNN的两种算法避免了传统势场法的局部最小值问题，并避免了规划陷入局部势阱的情况。

算法类型	Dsafe	ks	路径长度（网格）	算法耗时（毫秒）
广度优先 1 (图3)	3	8	93	30
广度优先 2 (图4)	5	12	115	42
Voronoi	None	None	145	23

表2显示了两种算法的规划性能。广度优先搜索方法采用不同的安全参数以获得具有不同安全性的路径。当Dsafe为3且ks为8时，路径最短，但更接近障碍物。当Dsafe为5且ks为12时，路径更长，但避免了在狭窄通道中的导航。Voronoi方法根据其原理[36]，可生成沿自由空间中心轴的路径，充分保证机器人的安全性，并且搜索时间比广度优先方法短，但路径冗余更大。记录两种算法规划路径所消耗的时间，并据此计算算法的平均时间消耗。沃罗诺伊骨架图方法规划路径算法的时间消耗记录如图6所示。

实验验证了导航软件的有效性，并证明了两种路径规划算法在实时性和最优性方面的差异。根据表2，可以计算出广度优先搜索方法在不同场地环境中优于沃罗诺伊骨架法。图方法计算规划路径所需时间多出23.2–45.3%，但规划路径的长度减少了20.7–35.9%。应根据不同需求选择合适的算法。

4 结论

本文介绍了基于全景视觉的路径规划导航系统的设计与实现，利用蛟龙移动机器人在真实环境中设计并完成了导航实验任务。实验结果验证了全景视觉导航的可行性，以及基于RNN的规划算法和两种搜索算法——广度优先搜索方法与Voronoi骨架图方法在实时性方面的有效性。不同算法在最优性能上的差异为实际应用中算法的选择提供了指导。实验结果表明，广度优先搜索与Voronoi骨架图方法相比，该方法计算规划路径所需时间多出23.2%至45.3%。

未来的研究方向可以从减少Voronoi骨架图方法的路径长度和广度优先搜索方法的计算耗时入手。