xbot福利来袭!

转发本文到朋友圈,私信木木备注 “获取VLA模型资料”;或在文章评论区留言 “获取VLA模型资料”,即可下载原文!


1

Token Shuffling(视觉 Token 打散)


• 背景:一张图像经过视觉Transformer(如ViT)编码后,会被分割成大量 patch token(如14×14共196个token),多帧图像则产生成百上千个token,导致计算成本飙升。

• 操作:采用 Token Shuffling 技术:

○ 随机打乱或有策略地选取一部分视觉 token(如 Top-K attention token、中心 patch 或随机采样);

○ 保留对全局信息感知性强的 token,舍弃冗余区域。

• 目的与好处:

○ 显著降低输入 token 数量;

○ 在保持感知能力的同时,减少注意力计算复杂度;

○ 适合推理时间受限(如边缘设备)场景。

• 适用情境:视觉输入维度大、多帧图像、多视角输入任务。


2

Sensor State Tokenization(传感器状态编码为Token)


• 背景:机器人控制需要融合多模态信息(语言、图像、状态),而 Transformer 通常处理的是统一维度的 token 序列。

• 操作

○ 将机器人状态(如关节角、抓手状态、位姿等)编码为一个向量;

○ 通过线性投影(MLP)映射到与视觉/语言 token 相同的维度(如768维);

○ 将其作为一个“状态 token”加入 Transformer 输入序列中。

• 好处:

○ 实现多模态统一融合;

○ 控制器可以同时感知“语言-视觉-状态”三模信息;

○ 比拼接向量或单独分支更高效。

• 适用情境:具身智能任务、机器人控制、模仿学习。


3

跳层策略(Mid-layer Truncation)


• 背景:完整的 Transformer 模型通常非常深(12~24层),推理速度慢,且后层未必有更多控制价值。

• 操作

○ 只运行 Transformer 的前 N 层(例如前 6 层);

○ 中间层即截断输出作为感知特征,不进入后层。

• 参考:已有工作如Shukor等指出,部分中层就能提供有用特征。

• 好处:

○ 明显减少推理时间和显存消耗;

○ 训练/部署更快;

○ 可在低算力设备运行。

• 适用情境:资源受限环境(CPU、移动设备)、实时控制。


4

中间层特征作为控制输入


• 背景:最后几层Transformer更偏语言生成、图像分类,可能过拟合预训练任务,不适合行为生成。

• 操作

○ 不仅提取第 N 层的输出,而是组合第1~N层所有中间输出作为控制输入;

○ 可使用 pooling、attention 方式融合中间层。

• 参考:El-Nouby 等研究指出中间层对下游任务更有用。

• 好处:

○ 提供多尺度语义信息;

○ 控制器能从浅层结构到深层语义中选择有用特征;

○ 提高泛化能力与稳定性。

• 适用情境:控制策略不固定、需要灵活适配新任务。


5

动作专家隐藏维度缩放(缩小至 0.75×)


• 背景:Transformer中每层的隐藏维度影响计算复杂度和显存开销。

• 操作

○ 将动作专家模块(Transformer Decoder或MLP)的隐藏维度设置为 VLM 的 75%;

○ 例如VLM是1024维,则动作专家用768维。

• 好处

○ 减少参数与乘法运算量;

○ 推理更快,显存更小;

○ 对性能影响极小,适合轻量部署。

• 适用情境:边缘推理、轻量机器人平台、低功耗场景。


6

异步推理堆栈(Asynchronous Inference Stack)


• 背景:机器人实际部署中,感知、决策与执行具有延迟差异,串行执行会产生瓶颈。

• 操作

○ 感知、编码、推理、执行等过程并行;

○ 前一帧正在执行动作时,下一帧的感知特征已在编码;

○ 可以提前输出未来一小段动作序列。

• 好处

○ 提高响应速度;

○ 减少时延带来的反馈滞后;

○ 更贴合实时控制的部署需求。

• 适用情境:需要高频控制的机器人任务(如抓取、避障)。


7

Flow Matching(向量场监督方式)


• 背景:动作预测可视为一种“路径拟合”,但直接预测轨迹容易梯度震荡、训练不稳定。

• 操作

○ 采用 Flow Matching(FM)目标,即预测从当前状态指向目标的“向量方向”;

○ 在训练中加入高斯噪声,学习一个连续向量场而不是离散动作。

• 好处

○ 更平滑、鲁棒的监督信号;

○ 梯度传播稳定,容易收敛;

○ 适用于连续控制或高维动作空间。

• 适用情境:模拟环境、实机运动控制、柔性轨迹生成。


8

多帧图像的稀疏选择策略


• 背景:输入多帧图像(如视频、前后视角),token数量急剧上升。

• 操作

○ 对每帧进行帧内 token shuffling(如稀疏采样、saliency-based选帧);

○ 然后在时间维度上聚合(如平均池化或时间注意力);

• 好处

○ 保留时序信息;

○ 计算量控制在较低水平;

○ 适合同时处理多个角度或时序场景。

• 适用情境:机器人多视角观察、连续帧模仿学习、视频感知。


9

共享视觉编码器(Frame-wise weight sharing)


• 背景:处理多帧图像时,若每帧用独立视觉编码器,会显著增加模型参数量。

• 操作

○ 所有帧共用一个视觉Transformer编码器(权重共享);

○ 输入多个图像时共享一套参数;

• 好处

○ 节省内存;

○ 保证编码一致性;

○ 易于多帧对齐、比较、注意力聚焦。

• 适用情境:视频输入、双视角相机、时间序列对比任务。


10

多层感知融合(动作专家感知中间特征)


• 背景:控制器仅用一个层输出的信息,可能缺乏层次理解能力。

• 操作

○ 动作专家接收并融合多个中间层(如Layer1~6)特征;

○ 可使用 self-attention、concatenation 或 pooling;

• 好处

○ 提高控制器泛化与适应能力;

○ 更容易迁移到新任务或不同视觉输入。

• 适用情境:多任务控制、复杂感知融合、强化学习微调。