logo资料库

深度估计论文学习.docx

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
第18周总结
第 18 周总结 姓名:徐玙璠 年级:硕士一年级 日期:2018 年 1 月 20 日 《 Unsupervised Monocular Depth Estimation with Left-Right Consistency 》 这 篇 文 章 是 受 《 Unsupervised Monocular Depth Estimation with Left-Right Consistency》这篇 文章启发,这周主要看的这篇文章。 《 Unsupervised Monocular Depth Estimation with Left-Right Consistency》主要工作就是通过无监督学习,利用 单张图像来估计深度。训练的时候通过单张图像生成视差图, 并合成另一张图,损失函数是基于图像重建的误差。但是仅 用图像重建的误差,在图像重建时表现很好,但在深度估计 上表现的并不好。因此后来被改进为基于左右图像视差的一 致性的损失函数。 1、系统框架: 本文没有直接估计深度,而是先估计左右视差和右左视 差,最后训练完毕,得到视差 d,利用深度:depth=bf/d;得 到深度;其中 b 为基线长度,f 为焦距。视差估计网络如下:
2、网络框架: 作者的网络通过推测视差将左图弯曲来匹配右图。主要 的 insight 可以只用左图同时预测两个视差(左边到右边, 右边到左边),用左右一致性来增强它。作者的网络通过双 目反向匹配生成了预测图像,是一个完全可微的图像形成网 络。如图三所示,naive 一些的做法是从左图采样,生成与 目标右图对齐的视差图。然而作者想要从右图采样输出与左 图对齐的视差图。这样就是 NoLR 的方法。只是这么做的话, 被推断出来的视差图表现出“纹理拷贝”人工合成和深度 图连续性上面误差。作者通过从相反的输入图像采样训练网 络预测两个视角的视差图的方法解决这个问题。这样做也只 需要单个左图作为卷积神经网络的输入,右图只在训练时候 使用。用左右图一致性损失增强左右视差图的一致性可以让 结果更准确。
作者的全卷积架构是被 DipsNet 启发的,几个重要的修正让 作者不需要 ground truth 深度图训练。作者的网络主要由 两个部分组成: 1)编码器:从第一层卷积到第七层卷积 b 2)解码器:从反卷积 7 解码器是从编码器的激活块做 skip connections 的, 这样可以让它能够分解更高的分辨细节。作者输出视差预测 在不同的尺度(从 disp4 到 disp1),这样可以在不同字序列 尺度上的空间分辨率上加倍。虽然只用单张图作为输入,网 络在每个输出尺度预测两张视差图:左到右,右到左。 3、损失函数 作者定义了一个损失 Cs 在每个输出尺度 s ,组成了总体 损失 ,作者的损失主要由三个部分组成: 其中 Cap 激励重建图像表现的像对应的训练输入, Cds 增强视 差的平滑性,Clr 是与预测的左右视差图一致性相关。每一项 都包换左右图变量,但是只有左图会喂到卷积层中。
下一步,要说损失函数的每一个部分在左图中,而对右图版 本来说需要交换左右图在另一个方向采样。 4、总结 作者展示了一个无监督深度神经网络用以单张图片深 度估计。作者不用对齐的 ground truth 这种稀少而且消耗 资源的方法,用了采集的双目立体数据。作者新颖的损失函 数增强了各个视角的预测深度图的一致性。 之后的工作,可以将模型延伸到视频上。现在的深度估 计每一帧都是独立的,加入时间连贯性之后,可能能提升结 果。
分享到:
收藏