EmbodiedAI原理和技术摘要汇总

这篇文章对最近学习的关于具身智能相关的技术原理和实现知识做一下摘要汇总，欢迎大家提出意见和建议，具体详细的介绍请参考文末的链接参考1。

1、TR-1模型算法，基于Transformer decoder结构，对结构稍微具体一点的分解为：输入数据预处理模块：输入为ImageToken(经过基于ImageNet预训练的efficientnet-b3的feature extractor提取成9*9*512的张量，flatten为81*512的imagetoken表示)和instruction文本通过FiLM layer(Feature wise Linear Modulation)进行融合，然后经过TokenLearner进行压缩形成8*512的张量形状。然后6张图片(a short history of images)concat一起形成48个token，和positional embedding结合作为Transformer解码器的输入，输出层的多个token进行平均池化，如8个token的hidden_state取平均池化，接出11（action的个数）* action_vocab_size(256)然后计算loss。

2、TR-2模型算法，基于web的图像文本对数据集预训练的Vision Language Model将web数据和robot数据一起进行co-finetune。并且将action建模为值为数字或词汇表中最少用的256个token的文本输出，形成Vision Language Action model用于机器人的闭环控制。

3、多模态大模型ViLT算法，文本和图像分别通过linear projection浅层网络转换为text embedding和visual embedding，然后通过concat不同模态的embedding以单流模式（Single Stream，要区分不同模态的类型，类似于BERT里的segment embedding，还有两个模态开始的special token等），其预测任务为ITM和MLM，其中ITM任务为是否匹配的分类任务和WPA（文本对齐任务，采用的是OT算法去优化文本视觉对齐信息，开源代码实现中任务的loss_weight分别为1和0.1）的结合，通过可视化可以观察高亮的文本和对应的视觉patch的关联度。ViLT可以用于VQA视觉问答任务，以及文本图片（text-to-image retrival and image-to-text retrival）检索任务等。

4、openx-embodiment数据集及TR-X算法及实验，openx-embodiment收集了来自全球20多家机构的20多种机器人的60个子数据集，并将其按照RLDS格式进行了统一格式化处理（episodes[steps[step[observation, action, reward….]]]处理，文章中对收集的机器人数据的特性做了分析，并在此基础上基于9个数据集对RT-1和RT-2模型进行了扩展训练，并回答了相关的模型泛化，模型完成新出现任务，以及模型得参数量，训练迭代次数等相关模型得能力和模型设计决策时的参考量。

5、occupancy networks. 一类以预测连续三维点坐标位置的占用状态的网路，通过学习函数映射的方式预测三维点的占用值(occupancy value)。一般包括编码器和解码器，也可能包含隐空间编码器。编码器对输入的observation状态进行编码，如图像，RGBD，点云数据等，解码器接受预测点的三维坐标以及编码器的输出，输出输入点的预测occ值，如果有隐空间编码器，则解码器同时还要对隐空间进行采样作为输入参数之一给解码器。训练的样本点需要对三维空间目标进行采样，可以针对三维目标的表面mesh及采样数据均衡特性进行采样，这些样本点可以在训练之前通过数据集预处理提前生成。

关于具身智能方面的技术介绍将在后续的分享中进行不定期的更新，我们将会将前言的相关的最新的论文和开源技术向大家持续分享，这些相关内容如有理解上的出入欢迎读者联系我们进行勘误纠正。也欢迎其他方面使得我们做的更好的建议。

References

Comments

Leave a Reply Cancel reply