阶段一:视觉基础与图像几何(1–2个月)


学习目标

掌握图像处理与几何变换基础,理解相机模型和三维空间投影原理。


核心内容

  • 相机成像模型与内参外参(针孔模型、畸变)

  • 坐标变换与姿态表示(欧拉角、四元数、齐次矩阵)

  • 特征提取与匹配(ORB、SIFT、SuperPoint)

  • 相机标定与PnP(Perspective-n-Point)


实战任务

  • OpenCV相机标定 + 实时姿态追踪

  • 图像特征点提取 + 描述子匹配 + 匹配可视化

  • 单目PnP + 深度图辅助的6D物体位姿估计


推荐资源

相机标定与PnP姿态估计

  • 中文项目笔记 + 标定代码:

    https://github.com/wenhao-gao/PnP-camera-pose-estimation

  • OpenCV 中文教程合集:

    https://github.com/Amusi/opencv-python-tutorial

特征提取与匹配(ORB/SIFT)

  • 中文注释版 A-KAZE/SIFT/ORB/SURF 匹配演示:

    https://github.com/hujunxianligong/Feature-Matching

  • SuperPoint(需梯子,含预训练模型):

    https://github.com/magicleap/SuperPointPretrainedNetwork




阶段二:物体识别与位姿估计(2–3个月)


学习目标

实现从图像中识别目标并估计其三维位置与姿态,用于抓取、操作与交互。


核心内容

  • 6D位姿估计方法:

    基于RGB:PoseCNN、CosyPose、GDR-Net

    RGB-D:DenseFusion、FFB6D

  • 模板匹配与姿态回归

  • 数据集与标注工具:YCB-Video、LineMOD、NOCS


实战任务

  • 使用PoseCNN或CosyPose实现YCB物体6D姿态估计

  • 单目图像 → 位姿预测 → 机械臂抓取落点生成

  • 对比RGB与RGB-D方法在遮挡/光照变化下的鲁棒性


工具推荐

  • CosyPose(支持YCB视频数据集)

    https://github.com/ylab-hi/CosyPose
    中文解析(推荐):https://zhuanlan.zhihu.com/p/402253393

  • FFB6D(RGB-D,遮挡鲁棒)

    https://github.com/ethnhe/FFB6D

  • DenseFusion(经典RGBD融合估计)

    https://github.com/j96w/DenseFusion
    中文教程(推荐):https://zhuanlan.zhihu.com/p/393030086

  • BlenderProc(生成训练数据)

    https://github.com/DLR-RM/BlenderProc




阶段三:三维重建与场景理解(2–3个月)


学习目标

实现从图像序列或多视角图像中重建稠密三维模型,用于仿真、AR、抓取规划等。


核心内容

  • SfM + MVS重建(如COLMAP)

  • RGB-D 逐帧融合建图(如Open3D TSDF)

  • 神经隐式建模(如NeRF、NeuS、Voxel-NeRF)

  • 物体分割 + 实时建模(如KinectFusion、BundleFusion)


实战任务

  • 用COLMAP从图像序列重建桌面场景点云

  • 结合Segment Anything做语义三维重建

  • NeRF重建机器人工作台用于仿真抓取生成


推荐资源

  • COLMAP(SfM+MVS)

    https://github.com/colmap/colmap
    图文详解(中文):https://zhuanlan.zhihu.com/p/618122053

  • NeRF 实时:instant-ngp(实时渲染速度超快)

    https://github.com/NVlabs/instant-ngp
    中文教程:https://zhuanlan.zhihu.com/p/617734305

  • Segment Anything + 三维重建(语义)

    https://github.com/JumpinZ/SAM-3D-Reconstruction




阶段四:高阶视觉感知任务与机器人集成(进阶)


学习目标

完成从“感知 → 表征 → 控制”的闭环感知系统,支持抓取、交互、分拣等复杂任务。


核心内容

  • 三维目标检测与分割(PointGroup、VoteNet、Mask3D)

  • 抓取候选生成(GraspNet、AnyGrasp、DexGraspNet)

  • 多模态融合(视觉 + 力觉、语言、点云)


实战任务

  • 实现RGB-D感知 + 位姿估计 + 抓取动作规划

  • NeRF建模 → 表面点云 → 抓取仿真验证

  • SAM分割 → 点云转换 → 机器人交互位姿生成


推荐资源

  • GraspNet(真实物体RGBD抓取)

    https://github.com/graspnet/graspnet-baseline

  • AnyGrasp(多模态+语言抓取)

    https://github.com/OpenRobotLab/AnyGrasp

  • SAM + 点云 + 抓取姿态生成

    https://github.com/janivanecky/SAM-RGBD-Grasping