网问答>>百度自动驾驶负责人王亮:纯视觉方案的最后一块拼图
问题
已解决

百度自动驾驶负责人王亮:纯视觉方案的最后一块拼图

时间:2026-01-14 19:45:33
百度自动驾驶负责人王亮:纯视觉方案的最后一块拼图
最佳回答
百度自动驾驶负责人王亮认为纯视觉方案的最后一块拼图是OCC,其加入使极越初步具备通用视觉障碍物检测能力。以下是对相关内容的详细阐述:纯视觉方案的选择原因成本因素:即便激光雷达价格持续走低,但受器件和成像原理限制,其成本仍是相机的5 - 10倍。对于企业而言,选择成本更低的纯视觉方案有助于控制自动驾驶系统的整体成本。可靠性问题:激光雷达作为精密光学测距仪器,内部存在许多移动部件,这使其出现可靠性和售后问题的概率较高。相比之下,相机的可靠性更高,更适合长期稳定运行。伪影困扰:从算法层面看,激光雷达并非完美系统,会产生伪影,而消除伪影影响的过程十分艰难。纯视觉方案则不存在这一问题,能够更直接地获取环境信息。长期投资考量:企业资源有限,需集中投入到一个技术方向上。纯视觉方案在算法上限方面具有更高潜力,更值得企业进行长期投资和研发。保证模型质量的措施模型合并与参数调整:将不同任务的小模型进行合并,并减少激光雷达模型,为视觉模型增加数千万参数。例如,过去深度学习需将车轮、车灯、车道线识别分为三个独立模型,如今改用连续帧视频信息直接判断,体现了算法层面的AI原生思维。数据优势:在复杂路段,激光雷达点云信息虽多,但仅能告知有障碍物需减速避障;而视觉信息量远大于激光雷达,能为模型提供更丰富的数据支持,有助于提高模型对环境的感知和理解能力。视觉方案的难点计算机视觉领域存在一个几十年未解决的难题,即二维到三维的挑战。在图像成像过程中,三维世界被有损投影到二维平面上,而无人车需在三维环境中规划轨迹,因此如何从二维图像中提取三维信息成为视觉方案的关键难点。三代技术方案演进第一代(2019年):激光雷达与视觉结合使用。当时工程师面临巨大业绩压力,倾向于用激光雷达解决简单问题,但百度决定拿掉激光雷达,死磕视觉问题。该方案采用多个相机从不同视角输入,分享DNN深度学习网络,每个网络负责单一视角的二维到三维恢复任务,并在时序上对单相机做障碍物跟踪,然后将多路相机感知结果拼接到统一坐标系下。然而,此方案仅能解决部分问题,发展受限。第二代(2022年):采用BEV技术,将DNN变为Transformer,实现端到端直接输出障碍物。该方法减少了规则和后处理,提高了系统效率,但存在缺陷,即无法用框表达一些无序物体,如施工土包、围挡等。第三代(2024年):完成升级为BEV + OCC + Transformer多任务统一网络。通过加入3D的Transformer,系统能够感知三维世界中的位置、深度、高度信息以及语义信息,解决了第二代方案的缺陷,实现了更全面的环境感知。下一版在研功能百度希望实现Vision Takes All,将跟踪和预测任务都通过直接学习来完成。目前,通过大量数据学习,已能对速度和未来运动趋势进行预测,基本涵盖了所有无人驾驶相关的感知任务,进一步提升自动驾驶系统的智能化水平。3D数据获取方式Robotaxi数据投入:百度利用旗下Robotaxi超过6000万公里的训练数据,投入到极越项目中的大算力显卡超过五千张(A100或A800),并每周进行迭代,为模型训练提供了丰富的真实场景数据。内部资源协同:百度协同内部资源,使用170亿参数的视觉大模型进行训练,其自动化产线日均产能可达百万帧图像,最终用于BEV + OCC联合训练的精标数据超过上亿帧,确保了模型训练的数据质量和规模。
时间:2026-01-14 19:45:36
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: