, 届时他将 分享实验室的最新双目深度估计工作:D3RoMa —— 一种使用大规模预训练过的扩散模型。
目前主流机器人操作模型都非常依赖深度相机,然而深度相机通常无法处理透明和反射性物体;无论是ToF或者是双目深度相机在原理上都是无法处理这类情形,这给现有依赖3D视觉感知的机器人操作带来了挑战。
本次Talk将分享我们实验室的最新双目深度估计工作:D3RoMa,使用大规模预训练过的扩散模型;可以鲁棒地估计和修复在场景中的这类物体的深度;实验表明我们在多项开源数据集上都是SOTA。
2. 预备知识:常见深度相机原理、Stereo-Matching算法介绍、扩散模型介绍
3. 深度感知的挑战:匹配失败、透明物体、光线. 相关工作与小结:现有工作的缺陷以及我们方法的创新点
6. 实验结果展示与分析:in-the-wild实验结果、与SoTA双目算法对比
参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
北京大学 ·博士生魏松林,北京大学计算机学院的博士生,指导老师是王鹤教授。 本科毕业于厦门大学软件工程专业。 多年来,魏松林的职业生涯经历了各种转变。曾 开发过大型社交媒体网站,制造过机器人,还创办过公司。 他的研究兴趣包括 3D 计算机视觉、机器人学习和具身人工智能。 我目前正在研究机器人的视觉-语言-动作模型。
(隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高星空体育在线入口地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
利物浦1-0赫罗纳 6战全胜领跑提前锁定欧冠16强 萨拉赫50球里程碑
为什么劝大家等iPhone SE4而不是选iPhone16?五点原因,望周知
对标华为Mate70 RS!荣耀Magic7 RSR保时捷设计,已确认12月上市
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
南通智慧赋能搭台|汾阳教育借智登高——汾阳市义务教育阶段校长赴江苏南通名校访学考察