视觉感知阶段化学习路线
- 2025-07-23 17:34:07
阶段一:视觉基础与图像几何(1–2个月)
学习目标
掌握图像处理与几何变换基础,理解相机模型和三维空间投影原理。
核心内容
相机成像模型与内参外参(针孔模型、畸变)
坐标变换与姿态表示(欧拉角、四元数、齐次矩阵)
特征提取与匹配(ORB、SIFT、SuperPoint)
相机标定与PnP(Perspective-n-Point)
实战任务
OpenCV相机标定 + 实时姿态追踪
图像特征点提取 + 描述子匹配 + 匹配可视化
单目PnP + 深度图辅助的6D物体位姿估计
推荐资源
相机标定与PnP姿态估计
中文项目笔记 + 标定代码:
https://github.com/wenhao-gao/PnP-camera-pose-estimation
OpenCV 中文教程合集:
https://github.com/Amusi/opencv-python-tutorial
特征提取与匹配(ORB/SIFT)
中文注释版 A-KAZE/SIFT/ORB/SURF 匹配演示:
https://github.com/hujunxianligong/Feature-Matching
SuperPoint(需梯子,含预训练模型):
https://github.com/magicleap/SuperPointPretrainedNetwork
阶段二:物体识别与位姿估计(2–3个月)
学习目标
实现从图像中识别目标并估计其三维位置与姿态,用于抓取、操作与交互。
核心内容
6D位姿估计方法:
基于RGB:PoseCNN、CosyPose、GDR-Net
RGB-D:DenseFusion、FFB6D
模板匹配与姿态回归
数据集与标注工具:YCB-Video、LineMOD、NOCS
实战任务
使用PoseCNN或CosyPose实现YCB物体6D姿态估计
单目图像 → 位姿预测 → 机械臂抓取落点生成
对比RGB与RGB-D方法在遮挡/光照变化下的鲁棒性
工具推荐
CosyPose(支持YCB视频数据集)
https://github.com/ylab-hi/CosyPose
中文解析(推荐):https://zhuanlan.zhihu.com/p/402253393FFB6D(RGB-D,遮挡鲁棒)
https://github.com/ethnhe/FFB6D
DenseFusion(经典RGBD融合估计)
https://github.com/j96w/DenseFusion
中文教程(推荐):https://zhuanlan.zhihu.com/p/393030086BlenderProc(生成训练数据)
https://github.com/DLR-RM/BlenderProc
阶段三:三维重建与场景理解(2–3个月)
学习目标
实现从图像序列或多视角图像中重建稠密三维模型,用于仿真、AR、抓取规划等。
核心内容
SfM + MVS重建(如COLMAP)
RGB-D 逐帧融合建图(如Open3D TSDF)
神经隐式建模(如NeRF、NeuS、Voxel-NeRF)
物体分割 + 实时建模(如KinectFusion、BundleFusion)
实战任务
用COLMAP从图像序列重建桌面场景点云
结合Segment Anything做语义三维重建
NeRF重建机器人工作台用于仿真抓取生成
推荐资源
COLMAP(SfM+MVS)
https://github.com/colmap/colmap
图文详解(中文):https://zhuanlan.zhihu.com/p/618122053NeRF 实时:instant-ngp(实时渲染速度超快)
https://github.com/NVlabs/instant-ngp
中文教程:https://zhuanlan.zhihu.com/p/617734305Segment Anything + 三维重建(语义)
https://github.com/JumpinZ/SAM-3D-Reconstruction
阶段四:高阶视觉感知任务与机器人集成(进阶)
学习目标
完成从“感知 → 表征 → 控制”的闭环感知系统,支持抓取、交互、分拣等复杂任务。
核心内容
三维目标检测与分割(PointGroup、VoteNet、Mask3D)
抓取候选生成(GraspNet、AnyGrasp、DexGraspNet)
多模态融合(视觉 + 力觉、语言、点云)
实战任务
实现RGB-D感知 + 位姿估计 + 抓取动作规划
NeRF建模 → 表面点云 → 抓取仿真验证
SAM分割 → 点云转换 → 机器人交互位姿生成
推荐资源
GraspNet(真实物体RGBD抓取)
https://github.com/graspnet/graspnet-baseline
AnyGrasp(多模态+语言抓取)
https://github.com/OpenRobotLab/AnyGrasp
SAM + 点云 + 抓取姿态生成
https://github.com/janivanecky/SAM-RGBD-Grasping



- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊