Depth from Camera Motion and Object Detection

weixin_45371818

1200人浏览 · 2021-07-29 14:20:29

weixin_45371818 · 2021-07-29 14:20:29 发布

1 摘要

本文旨在解决在考虑相机运动情况下的物体深度估计问题。使用DBox网络和ODMD数据集来估计深度信息。

2 简介

目前的自动驾驶车辆和机器人需要感知周围环境的三维信息，这需要依赖RGBD摄像头和雷达传感器。本文主要使用未标定相机运动和物体检测的边框来估计深度。优势之一是物体检测边框只有四个参数，相比于图像分割可以节约算力；优势之二是运动信息可以在大多数硬件平台上测量。

创新点：

一、推导出未校准运动和基于检测的深度估计的分析模型和相应的解。

二、建立RNN预测运动和边框的深度信息。

三、提出ODMD数据集，数据集包括边框信息，相机运动和深度信息的距离。

3 相关工作

因为其具有实时运行和小物体检测精准的特点，使用Faster R-CNN作为检测器。

4 Depth from Camera Motion andObject Detection

DBox依次处理每个观测结果，并使用光学膨胀和运动视差线索来进行最终的物体深度预测。引入ODMD是为了训练和检测DBox。首先数学推导出运动检测模型；接着，确定输入损失函数和结构；最后，解释了ODMD的可扩展培训数据、评估的验证和测试集以及DBox培训配置。

4.1 Depth from Motion and Detection Model

4.1.1 Motion and Detection Inputs.

模型的输入是7维

其中包括包围框中心点坐标、宽度、高度、观测物体相对于相机的位置。

4.1.2 Camera Model

为了从二维检测中推断出三维信息，本文使用针孔相机模型将对象的边界框图像点与三维相机帧坐标联系起来。包围框与物体深度成反比。

4.1.3 Depth from Optical Expansion & Detection

在一个理想的模型中，我们可以使用观察值之间的z轴运动和边界框尺度的相应变化来找到对象的深度。接下来就是公式推导。

4.1.4 Depth from Motion Parallax & Detection

如果存在x轴或y轴相机运动，我们可以使用边界框位置的相应变化（例如，图2中的框1到框3）来解决对象深度。为了简洁起见，我们在补充材料中提供了这个推导和比较结果。

4.1.5 Using all Observations to Improve Depth.

无论是相机运动检测或者是物体检测都存在误差，通过对所有物体进行深度检测会使得评估更具有鲁棒性。

4.2 Depth from Motion and Detection Network

4.2.1 Normalized Network Input

对于物体检测边框标准化和相机位置标准化。loss是真实深度减预测深度。

4.2.2 Network Architecture

LSTM的变形

5 销蚀实验

fAbs (13) 仅仅进行归一化处理，fRel (14)进行归一化和无量纲处理，Zn (9)不进行处理。

DBoxNS 标准数据集。DBoxp数据集带有误差。DBoxAbs使用归一化处理的loss。

DBox1Mp是对于DBoxp数据集迭代100000。BoxLS 数学分析法。

泛化性对比实验。

九章云极普惠算力

更多推荐

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

终极指南：如何用facenet-pytorch快速构建企业级人脸识别系统

在当今数字化时代，人脸识别技术已成为身份验证、安全监控和智能交互的核心驱动力。facenet-pytorch作为一款基于PyTorch的开源人脸识别工具包，凭借其高效的MTCNN人脸检测和InceptionResnetV1特征提取能力，为开发者提供了从零构建专业级人脸识别系统的完整解决方案。本文将带你一步步探索这个强大工具的使用方法，从环境搭建到实际应用，让你在短时间内掌握人脸识别的核心技术。