-
前段时间,全球首个专门为具身智能模型大规模强化学习后训练打造的开源框架 RLinf 正式发布了 v0.2 版本,全面支持了仿真引擎RL、真实世界 RL与世界模型,目前已支持包括OpenPi等具身智能模型,以及LIBERO、Maniskill、世界模型WAN等主流仿真环境。CloudRobo团队完成了一系列昇腾适配、精度对齐、性能优化工作,并贡献回社区,使开源 RLinf 框架原生支持昇腾生态,使其能够在昇腾 NPU 上开箱即用。 1 背景在过去的几年里,大语言模型(LLM)和多模态视觉语言模型(VLM)彻底改变了我们与信息的交互方式。然而,AI 发展的终极愿景并不止于“屏幕里的对话框”,而是能够感知物理世界、操作复杂工具并完成现实任务的具身智能(Embodied AI)。随着视觉-语言-动作模型(VLA)的兴起,研究重点正从单纯的语义理解转向“感知-决策-执行”的闭环控制。然而,要训练出一个像人一样灵活的机器人大脑,面临着巨大的基础设施挑战: 仿真数据的渴求: 现实世界的训练成本高且危险,依赖大规模并行仿真环境可以显著降低数据成本(如 LIBERO、ManiSkill3)。 计算效率的鸿沟: 传统的强化学习(RL)框架在面对数十亿参数的视觉基座模型时,往往会出现“渲染等推理、推理等训练”的相互掣肘,导致硬件利用率低下。正是在这种具身智能急需工业级引擎的背景下,RLinf 应运而生。 2 RLinf介绍RLinf(Reinforcement Learning Infrastructure)是由清华大学、北京中关村学院、无问芯穹(Infi-AI)、北京大学与加州大学伯克利分校等顶尖科研机构及企业在 2025 年 9 月联合发布的。它是全球首个专门为具身智能(Embodied AI)设计的“渲染、训练、推理”一体化大规模强化学习框架,旨在解决具身智能训练中面临的硬件利用率低、系统灵活性差等痛点。RLinf本身是一个灵活且可扩展的开源基础架构,专为通过强化学习对基础模型进行后训练而设计。名称中的 "inf" 代表 Infrastructure(基础架构),强调其作为新一代训练强大支撑系统的角色;同时也代表 Infinite(无限),象征该系统支持开放式学习、持续泛化和智能发展的无限可能性。 核心技术亮点1. M2Flow (Macro-to-Micro Flow) 架构:这是 RLinf 的核心“黑科技”。它通过宏观任务流与微观算子流的深度协同,打破了仿真渲染、模型推理与梯度训练之间的同步阻塞,实现了三者的极致并行。在同等硬件条件下,它能将具身任务的训练吞吐量提升数倍。2. 全场景仿真适配:RLinf 原生支持 LIBERO、IsaacLab、ManiSkill3 等主流具身智能仿真环境。通过高度抽象的接口,开发者可以像调用标准 Gym 环境一样轻松调动复杂的物理引擎。3. 支持前沿 VLA 架构:框架深度集成了包括 GRPO、PPO、DAPO 在内的多种强化学习算法,并支持 OpenPi、GR00T 等多种主流机器人基座模型的快速微调。 RLinf 将训练过程拆分为三个独立运行的算力集群(Actor Groups):Env Group(环境采样组): 负责驱动物理引擎(如 LIBERO、MuJoCo)。它们执行模型动作,并“渲染”出下一帧的视觉观测(Observation)。Rollout Group(模型推理组): 专门负责将观测数据输入大模型(如 VLA 模型),计算出下一个动作(Action)。Training Group(策略优化组): 收集轨迹数据(Transitions),进行梯度计算并更新模型参数。 3 CloudRobo + RLinf RLinf社区已合入了我们发布的第一个昇腾NPU适配特性,成功在昇腾上支持了OpenPi模型使用LIBERO的强化学习。CloudRobo 平台已集成 RLinf 框架,并提供了预置配置模板。开发者无需从零搭建环境,即可快速启动强化学习训练任务。不同平台训练效果对比:在这一实验场景中,我们不仅完成了 Ascend NPU 上的端到端运行验证,还进一步对 NPU 与 GPU 的训练结果进行了对齐验证。在完全一致的实验设置下(包括模型、数据、算法参数以及并行配置),我们分别在GPU环境与Ascend NPU环境上对同一训练任务运行了几十步,并对关键训练指标进行对比。模型:[pi05](https://huggingface.co/RLinf/RLinf-Pi05-LIBERO-SFT)仿真基准测试集:[LIBERO](https://github.com/RLinf/LIBERO)算法:PPO硬件规模:4 die (4 x A100, 4 x Snt9b, 2 x Snt9b23)A100环境 Snt9b环境 Snt9b23环境 对比结果表明:三个平台上的 success_once 收敛曲线高度一致,并都在第50步时成功率达到55%,提升符合预期;在RL训练过程中没有出现明显的数值偏移或稳定性差异,证明了在昇腾生态下的有效性。长稳实验效果测试: 在这一实验中,为了验证RLinf在昇腾环境运行的稳定性与长期效果,我们在CloudRobo平台上进行了长稳实验。模型:[pi0](https://huggingface.co/RLinf/RLinf-Pi0-LIBERO-Spatial-Object-Goal-SFT)仿真基准测试集:[LIBERO](https://github.com/RLinf/LIBERO)算法:PPO硬件规模:2 die (2 x Snt9b) 实验结果: 在800步左右训练后,success_once大幅提升,由初始的50%左右提升至90%,期间未出现异常中断,证明在昇腾环境下RLinf是稳定且有效的。 4 性能优化在实验过程中,我们发现了RL性能优化的可能性,可以通过提前触发重置环境函数的方式,在模型训练过程中同步完成下一轮的环境准备工作。如图所示: 通过Bootstrap-Training Overlap (4 Env Workers),任务global step时间下降了15%-20%,是可观的收益。该优化我们也已经贡献到RLinf社区,已被社区接纳合入。 5 总结我们取得的阶段性成果包括:开箱即用的昇腾支持,RLinf 框架已原生支持昇腾 NPU 后端,开发者无需额外适配即可在 CloudRobo 平台上直接运行强化学习训练任务。我们提供了预置的模型资产、仿真资产和配置模板,大幅降低了环境搭建门槛。在完全一致的实验配置下,昇腾 NPU 与 GPU 的训练收敛曲线高度一致,且在长稳实验中,证明了RLinf在CloudRobo平台上的稳定性和有效性。通过 Bootstrap-Training Overlap 优化性能,该优化已被社区接纳,惠及更广泛的开发者。未来,CloudRobo 具身开发平台将继续与开源强化学习框架 RLinf 深度合作,逐步上线具身场景更多的RL特性和能力,为开发者带来更高效、更易用的一站式具身智能开发体验。
-
近年来,Vision-Language-Action(VLA)模型正在成为机器人操作的重要路线。模型可以根据视觉观察和语言指令生成动作序列,完成抓取、放置、插入等任务。但当机器人真正进入接触丰富场景时,仅仅“看懂任务”和“预测动作”往往还不够。例如插头插入、按钮按压、擦白板、开窗这类任务,核心难点并不只是空间定位,而是机器人必须在接触过程中持续感知力、调节力、保持柔顺。一旦动作块执行过程中出现轻微偏差,就可能导致接触力过大、任务失败,甚至触发机器人保护停机。CC-VLA 的出发点正是:现有 VLA 虽然具备视觉语义理解和动作生成能力,但还缺少真正面向接触控制的力-位闭环能力。VLA 为什么需要“控制感知”? 传统 VLA 通常采用 action chunk 的方式:模型低频预测一段动作,底层控制器按序执行。这种设计在非接触或弱接触任务中比较有效,但在强接触任务中会遇到明显问题。一方面,VLA 推理频率相对较低,动作块执行期间缺少足够快的反馈修正;另一方面,力/力矩传感器的变化往往发生在更高频率上,如果把高频力信号简单降采样或直接拼进输入,模型很容易错过真正关键的接触变化。同方向的 FAVLA 也指出,视觉相机和力/力矩传感器存在天然频率不匹配,低频 VLM + 开环动作块执行很难对接触力变化做出及时反应。 更重要的是,力信号并不只是一个“额外输入模态”。在接触任务中,它同时扮演三种角色:第一,它是本体感知的一部分,帮助判断当前是否接触、是否卡住、是否滑移;第二,它是动作生成的约束信号,告诉模型下一步该更用力还是更柔顺;第三,它还应该成为控制目标,即模型不仅要预测“去哪里”,还要预测“施加多大力”。CC-VLA 明确把 force 既作为输入,也作为 action target,让 VLA 输出可以被柔顺控制器直接使用的 feedforward force。 CC-VLA: 从“force-aware VLA”到“control-aware VLA” 过去一些工作已经尝试把力/力矩引入 VLA。比如 ForceVLA 使用 MoE 模块融合视觉语言特征和实时力信号,使动作预测具备一定接触感知能力;但 CC-VLA 认为,这类方法仍然主要停留在“力增强动作预测”层面,底层执行通常还是位置控制,难以实现精确的期望力跟踪和快速柔顺调整。论文也指出,ForceVLA 等方法虽然能生成基于交互力的 pose action chunk,但在稀疏观测下仍然难以实现准确的 desired force tracking 和 compliant force-position adjustment。因此,CC-VLA 的核心转向是:不再只让模型感知力,而是让模型服务于控制器。它构建了一个层级式 slow-fast 系统: Slow policy 是 control-aware VLA。它接收多视角图像、语言指令、本体状态、实时力和历史力序列,输出动作块,包括期望位姿、夹爪状态和期望力。Fast policy 是 VLA-guided adaptive compliance controller。它接收 VLA 输出的 desired pose 和 feedforward force,在更高频率下进行力-位柔顺控制,负责实时跟踪和安全执行。图 1 中也明确把 CC-VLA 拆成 slow policy 和 fast policy:前者做长时域力感知与动作预测,后者做高频反应式控制、力跟踪和柔顺执行。这也是 CC-VLA 与普通 VLA 最大的区别:普通 VLA 更像“视觉语言到动作”的映射,而 CCVLA 是“视觉语言力感知到控制目标,再由控制器执行”的系统。 CC-VLA 方法框架:三个关键模块 CC-VLA 的整体方法可以概括为三个核心部分:历史力序列编码器、MoE 融合与两阶段训练、自适应柔顺控制器。 1. Historical Force Sequence Encoder:让模型理解“力的过程” 单帧力信号只能告诉模型当前受力是多少,但接触任务真正重要的是力的动态变化:是否刚刚接触、是否丢失接触、力是否快速上升、是否出现峰值、是否进入稳定摩擦阶段。 因此,CC-VLA 没有只使用实时 F/T,而是引入历史力序列。论文将历史 F/T 序列切成多个连续 patch,每个 patch 通过共享 MLP 编码局部时间模式,再加入时间位置编码。随后,一个 learnable force token 对这些力 patch 做 cross-attention,最终得到一个紧凑的历史力描述 token。这个 token 再和视觉、语言、状态 token 融合,用于动作和期望力预测。 直观理解,这个模块相当于给 VLA 加了一个“接触状态摘要器”:它不要求模型从原始力曲线中盲目学习,而是显式把接触变化、力趋势和历史动态压缩成可用表征。 2. MoE-Based Fusion:力觉不是主干,而是修正分支 视觉和力信号的性质差异非常大。视觉 token 信息密度高、语义强,力信号稀疏、噪声大、时序性强。如果一开始就把力和视觉语言特征端到端混合训练,很容易出现两类问题:模型过度依赖视觉,忽视力信号;或者力噪声干扰视觉语义和空间理解。CC-VLA 采用了更稳妥的方式:先让 VLA backbone 学好视觉、语言和动作空间对齐,再引入力觉 MoE 分支作为 residual correction。这种设计的关键在于:力觉分支不是替代视觉策略,而是在视觉策略基础上做接触修正。 3. Multi-Stage Training:先学空间,再学接触 CC-VLA 的训练分为两个阶段。第一阶段,微调 base model,主要对齐视觉、语言、本体状态和动作空间,让模型先具备稳定的通用操作能力。第二阶段,引入 cross-model fusion expert,将 F/T 数据与视觉语言 embedding 通过稀疏 MoE 融合,让模型学习用细粒度接触动态去调制已有动作轨迹。论文强调,这种分阶段训练可以避免多模态竞争,让力觉调整作为视觉策略的 refinement,从而提升接触任务中的稳定性。CC-VLA 并不是把所有模态从头硬塞进一个大模型,而是把力模态放在更接近控制目标的位置,让它在后阶段负责“纠偏”。 自适应柔顺控制器:VLA 负责“想怎么做”,控制器负责“安全地做” CC-VLA 最重要的部分其实不是 MoE,而是它把 VLA 和 compliance controller 连接了起来。 VLA 输出 action chunk 后,系统会通过 asynchronous action trajectory layer 把离散动作插值成更高频的连续期望命令。随后,adaptive compliance controller 根据 VLA 预测的 desired pose 和 feedforward force,结合实时测得的外力,动态调整刚度和阻尼。 论文没有采用复杂 QP 去每一步求最优刚度,而是设计了受 Resilient Propagation 启发的启发式刚度更新规则:根据力跟踪误差变化调整刚度,再经过低通滤波、刚度上下界投影和稳定性约束,避免学习模型输出抖动导致控制不稳定。这部分的意义是:即使 VLA 因为感知误差预测了一个可能导致危险接触的位姿,底层控制器仍然可以通过柔顺机制限制过大接触力,从系统层面提升安全性。同方向的 CompliantVLA-adaptor 也强调,现有 VLA 通常输出位置命令,但缺少 force-aware adaptation,容易在接触、柔顺和不确定环境中失败;该类工作普遍试图用可变阻抗控制把高层语义理解和底层安全接触连接起来。 数据采集:让遥操作环境“等效变软” 接触丰富任务的数据采集本身就很难。使用 3D mouse、gamepad 等非力反馈设备遥操作位置控制机器人时,操作者很容易因为一点点位置误差造成过大接触力,机器人随即保护停机。为了解决这个问题,CC-VLA 设计了 shared teleoperation data acquisition。它通过 compensated virtual impedance,把真实环境在控制层面“等效变软”。直观上,对于同样大小的交互力,更软的环境允许更大的接触位移,因此操作者更容易采集到稳定、安全、带有高质量力信号的示教数据。 这点对 force-aware VLA 很关键,因为模型不只是需要轨迹,还需要稳定、时间一致、可学习的力变化模式。 实验:在按压、插入、开窗、擦拭任务上验证 论文在四类真实机器人接触任务上评估 CC-VLA:按急停按钮、插入充电插头、打开旋转窗、恒力擦白板。实验硬件包括 UR5e 机械臂、腕部 RealSense D435、侧视 RealSense D455、UMIlike gripper 和 6-DoF 力/力矩传感器。训练时每个任务使用两张 A100,测试时使用一张 RTX 4070。 对比方法包括 Diffusion Policy、π0、π0 w/ Force、π0.5 和 ForceVLA。结果显示,CC-VLA 在六个测试设置上的平均成功率达到 89.2%,明显高于 DP 的 31.3%、π0 的 47.3%、π0.5 的 44.7%、π0 w/ Force 的 60.2% 和 ForceVLA 的 73.2%。 在最能体现力控能力的擦白板任务中,示教目标法向力为 40N。CC-VLA 是唯一能够稳定追踪 40N 期望力的方法。WP-Base 中,CC-VLA 的力跟踪误差为 5.52%,ForceVLA 为 35.57%,π0 w/ Force 为 28.10%;WP-OOD 中,CC-VLA 的误差为 8.78%,ForceVLA 为 52.33%。当瞬时接触力超过 75N 时,机器人会触发保护停机,这也解释了为什么 π0 和 π0.5 在部分擦拭实验中无法稳定完成任务。 消融实验:历史力、两阶段训练、柔顺控制都很关键 消融结果进一步说明,CC-VLA 的提升不是单一模块带来的。在按按钮任务中,CC-VLA 相比 ForceVLA 在夹爪尖端对准按钮顶点方面提升 12%,并将 falsepressing pose rate 从 28% 降低到 8%,说明两阶段训练确实更好地保留了空间感知能力。 在 PI-Pro 插头近距离起始任务中,加入历史力序列编码器后,成功率从 72% 提升到 92%,说明历史力信息能帮助模型进行细粒度接触状态估计。 在擦白板任务中,可变刚度和 VLA-guided adaptive compliance controller 显著降低了力跟踪误差,说明底层控制器并不是简单附属模块,而是 CC-VLA 能稳定完成接触任务的核心组成部分。 为什么这项工作重要? CC-VLA 的意义不只是提出了一个新的 force-aware VLA,而是重新定义了 VLA 在接触丰富任务中的角色。 过去,VLA 往往被看作一个端到端动作生成器:输入图像和语言,输出动作。但接触任务要求机器人同时具备语义理解、空间定位、力感知、柔顺控制和高频安全响应。CC-VLA 的设计说明,真正可落地的物理智能系统可能不应该把所有事情都交给一个慢速大模型,而应该把任务分成两个时间尺度:高层 VLA 负责语义、阶段、动作目标和期望力;低层控制器负责实时力位执行与安全约束。 这也和 ForceVLA2、 UMI-FT等近期工作形成了共同趋势:接触丰富操作不能只靠位置动作预测,VLA 必须显式考虑力、控制频率和底层执行机制。ForceVLA2 也强调,真实接触任务长期依赖位置控制,显式力感知与力调节仍然不足,这会限制稳定性、精度和鲁棒性。 整个模型开发与验证流程都是基于华为云cloudrobo平台,cloudrobo平台承担模型验证或工程化落地的基础设施角色,覆盖数据服务、模型训练、仿真验证和推理部署等全流程能力,CC VLA 可以作为平台中的接触丰富操作专项模型,为插装、擦拭、按压、开窗、装配等任务提供力感知动作预测与柔顺控制能力;对开发者来说,这种结合可以把CC-VLA的模型能力沉淀为可复用技能:一方面借助平台完成多模态示教数据管理、模型微调、仿真测试和云边协同部署,另一方面通过 CC-VLA 的期望力预测与自适应柔顺控制,降低接触任务的调试门槛,提升模型上线时的安全性、稳定性和任务成功率。 结语 CC-VLA 的关键贡献可以概括为一句话:让 VLA 从“force-aware action predictor”走向“controlaware compliance policy”。 它通过历史力序列编码器解决接触状态感知问题,通过 MoE 和两阶段训练解决视觉-语言-力模态融合问题,通过 VLA-guided adaptive compliance controller 解决低频 VLA 与高频接触控制之间的断层。 对于 VLA + 力/触觉方向,这篇工作的启发很明确:未来机器人模型不能只预测动作轨迹,还应该预测可被控制器执行的物理目标,例如期望力、刚度、阻尼、接触阶段或 compliance policy。真正有用的 VLA,不仅要知道“下一步去哪”,还要知道“以多大力、用多软的方式、如何安全地接触世界”。
-
机器人操作领域并不缺少仿真数据,关键问题在于仿真数据是否具备向真实世界迁移的有效性。如果仿真场景过于理想化、轨迹仅覆盖标准成功路径,且训练过程缺少跨域对齐机制,策略就可能在仿真环境中表现良好,但在真实环境中出现抓取成功率低、扰动后恢复能力弱、复杂背景下感知失效等问题。 来自华为云 CloudRobo 团队的最新研究《HyperSim: A Holistic Sim-To-Real Framework For Robust Robotic Manipulation》对上述问题提供了新的解法。该工作的核心贡献并非单一模块的改进,而是将高保真环境构建、对抗式轨迹生成、与仿真-真实协同训练整合为完整技术链路,从而提升仿真训练策略向真实部署场景迁移的稳定性。其中,高保真环境用于降低视觉域差异,对抗式轨迹用于扩展状态-动作分布覆盖范围,混合训练则用于提升跨域表征学习能力。 视觉保真:通过真实场景重建获取背景信息,提升仿真观测与真实部署观测之间的视觉一致性。 数据覆盖:在轨迹生成过程中扰动目标物体状态,让训练数据覆盖执行过程中的不确定性 域间对齐:结合大规模仿真数据与少量真实示教数据,学习更稳定的跨域特征表示 高保真环境:缩小视觉域差异 传统仿真通过“桌面 + 物体 + 简化背景”的方式降低环境建模的复杂度。这种设置虽然有利于快速的场景生成,但也会引入与真实环境之间的差异。HyperSim 将场景表示拆分为两部分:• 前景操作区:基于约束优化的方法,产生布局合理、物理可交互的操作区域。 • 背景环境:通过带几何先验的 Gaussian Splatting 做高保真重建,Gaussian 表征用于渲染,与其严格对齐的 Mesh 则保证几何精确。 这种设计使前景操作区能够保持合理稳定的物理交互,同时通过背景重建提升视觉观测与真实环境的一致性。 对抗式轨迹生成:从执行标准路径扩展到扰动恢复能力 传统的轨迹数据集通常只包括任务一次执行成功的轨迹,而真实机器人经常遇到难以在操作过程中对准目标物体的问题,这细微的偏差进一步导致任务执行失败。为了解决这一问题,HyperSim将任务拆分为接近阶段与交互阶段,并在关键的 bottleneck pose 附近对目标物体的位置和姿态施加微小扰动,使产生的轨迹中模拟重新对准目标物体、以及从失败中恢复执行的现象。 对抗式轨迹生成将上述“失败恢复”过程显式纳入训练数据。模型学习的不再仅是标准执行动作,还包括面对偏差和动态变化时的调整和恢复能力。 真实环境验证:复杂任务、细粒度评估 文本采用工业分拣任务验证数据质量和模型性能。与简单的桌面抓取任务相比,机器人需要将目标物体(红色航插)从中间的胶框中取出并放置到旁侧的胶框中,在此过程中非常容易与胶框发生碰撞,因此对于机械臂的抓取位姿、与目标物体的对准度等有更高要求。 论文使用了三项细粒度的指标来评估模型能力: • TAR:是否成功对齐到 bottleneck pose • SR1:是否一次连续尝试就完成任务 • SR3:最多允许三次尝试时的整体成功率 HyperSim 的评测设计避免了仅依赖最终成功率所带来的评估不全面的问题。机械臂达到bottleneck 位姿后动作失败,与从初始阶段就无法完成与目标物体的对齐,反映的是不同类型的能力缺陷。 实验结果: 高保真环境、扩展数据分布与少量真实示教轨迹的协同增益 相较于仅停留在仿真验证的研究,HyperSim在 ACT 与 π0 两类策略上累计进行了 400 余次的真实世界试验。论文中的几个核心结果值得关注: • 在 zero-shot 设置下,完整高保真方案让π0 的 SR3达到了 75%。 • 在 few-shot 设置下,只加入 35 条真实示范,完整 HyperSim 管线让 ACT 的 SR3 达到 80%、π0 的 SR3 达到 95%。 • 在动态扰动测试中,使用对抗式轨迹训练后,SR1 从 25% 提升到 60%,鲁棒性提升约 35 个百分点。 这些结果共同表明,高质量仿真数据并非用于完全替代真实数据,而是能够在少量真实示教数据的配合下,显著提升真实训练信号的利用效率。 总结 HyperSim 的重要性不仅在于提出了一个新的技术框架,更在于将三个长期被分散处理的问题纳入统一方案:如何使仿真场景更接近真实环境,如何让训练数据覆盖执行过程中的不确定性,以及如何在极少真实数据条件下学习更稳定的跨域能力。从更宏观的技术趋势来看,该工作体现了具身智能训练范式的一次重要转向:从强调数据规模转向强调数据有效性,从依赖理想成功示教转向构建包含失败恢复过程的数据分布,从单点式 sim-to-real 技巧转向系统化全链路设计。
-
一、基本信息本文共计:1800+字,阅读时长:9~15分钟。本文将拆解具身智能领域的模型能力体系,清晰界定各层级、各类型模型的核心能力、功能边界,全面呈现各类模型如何协同支撑,具身智能体在复杂物理世界中完成自主决策与高效行动。 二、小脑层模型:具身智能的运动中枢,承载轨迹规划与实时执行 小脑层是具身智能体的运动执行核心,核心定位为:承接大脑层下发的抽象任务意图与决策指令,将高层语义指令转化为可落地的具体运动行为。专注于运动轨迹生成、全身姿态协调、平衡稳定控制、动作序列编排、实时传感反馈调节,介于大脑高层认知与机器人本体底层硬件驱动之间。 (一)视觉语言动作模型(VLA):端到端动作生成核心载体 核心能力:视觉感知 + 语言指令直接映射为连续运动动作,打通感知、语言到动作的全链路,支持物体抓取、室内行走、灵巧操作等多类任务的零样本泛化,大幅简化传统分模块开发链路,是当前具身动作生成的主流技术方向。经典模型:以 RT-1、RT-2、RoboCat 为代表,可在简单结构化场景中,根据语言指令直接输出机械臂抓取、定点移动等基础动作轨迹与关节控制指令。前沿模型:OpenVLA、RT-2X、TraceVLA、人形专用 VLA,显著提升动作生成精度、复杂场景泛化能力与多动作协同能力;可适配复杂灵巧操作、人形上下楼梯、负重行走等高难度全身运动,兼容动态环境实时动作微调,同时具备跨机型、跨场景动作技能迁移能力。 (二)强化学习(RL)运动控制模型:环境自适应的自主技能学习工具 核心能力:通过与环境交互试错,自主习得步态、抓取、避障、轨迹跟随等运动技能,无需依赖精准人工规则,可自适应环境变化、机器人本体参数漂移等不确定因素,提升运动控制鲁棒性。其学习逻辑类比人类反复试错校准动作,是机器人自主进化、自主适配未知环境的关键技术。经典算法与模型:PPO、SAC、TD3、DDPG,广泛应用于机械臂无序抓取、轮式机器人避障、双足机器人基础步态学习等场景,可通过持续环境交互自主优化运动策略。前沿方向:以离线具身 RL、世界模型增强 RL、人形全身协同 RL为代表,解决传统在线 RL 样本效率低、真机训练风险高、成本大的痛点,结合世界模型虚拟预判能力做仿真试错,再迁移到真机落地,大幅提升训练效率。 (三)模仿学习(IL)模型:从人类演示快速复刻作业技能 核心能力:从人类操作演示数据中学习动作范式,快速复刻复杂作业技能与运动步态,无需大量试错训练即可落地应用,显著降低机器人技能开发周期与数据成本,适配工业装配、家政服务、专用操作等快速落地场景。经典主流类别:包含行为克隆 BC、DAgger 迭代模仿、生成式模仿学习。经典主流方案以 BC、DAgger、GAIL 为代表,可基于人类演示视频或轨迹数据,复刻标准抓取、装配、固定行走等标准化动作序列。前沿模型:多模态演示模仿、小样本具身模仿学习,可融合视频、语言解说、力控信号多维度演示数据,动作复刻更贴合人类操作习惯;仅需少量演示样本即可泛化到同类相似场景,适配个性化、小批量作业技能快速部署。 (四)全身运动规划与控制模型:人形机器人平衡与轨迹协调调节器 核心能力:人形机器人全身姿态平衡控制、运动轨迹平滑优化、多关节协同调度、复杂地形动态步态生成,保障机器人在行走、转弯、上下台阶、负重站立等工况下姿态稳定,同时优化运动轨迹平顺性与能耗效率,是人形机器人落地的核心底层控制支撑。经典技术体系:包含全身控制 WBC、模型预测控制 MPC、零力矩点 ZMP 三大经典技术体系,配套 LQR、PID 等基础控制算法。经典方案依托 ZMP 实现双足行走平衡判定,通过 WBC 做多关节力矩协同分配,借助 MPC 完成前瞻轨迹优化,广泛应用于人形步态、机械臂轨迹规划等场景。前沿方向:为深度学习增强 WBC、端到端步态规划模型,利用数据驱动模型补偿传统控制的建模误差,适配凹凸路面、斜坡、台阶等非结构化复杂地形,可实时动态调整步长、重心与关节姿态,实现更自然、更灵活的类人运动效果。 (五)灵巧操作 / 抓取规划模型:精密作业与无序抓取执行工具 核心能力:无序场景目标检测、6DoF 抓取位姿估计、多指灵巧手协同操作规划,支持不同形状、不同材质、易碎易变形物体的自适应抓取与精细操作,是工业分拣、家政整理、精密装配等场景的必备能力。经典模型:以 GraspNet、通用 6DoF 抓取网络为代表,适用于结构化固定场景规则物体的抓取位姿检测与轨迹规划。前沿模型:融入大模型语义引导抓取、通用灵巧手动作生成能力,可根据物体材质、易碎属性、尺寸特征智能调整抓取姿态与夹持力度,实现柔顺安全抓取,同时支持多指协同完成捏取、旋拧、夹取等精细化复杂操作。
-
一、基本信息本文共计:1600+字,阅读时长:8~14分钟。本文将拆解具身智能领域的模型能力体系,清晰界定各层级、各类型模型的核心能力、功能边界,全面呈现各类模型如何协同支撑,具身智能体在复杂物理世界中完成自主决策与高效行动。 二、大脑层模型:具身智能的认知中枢,承载高层决策与场景理解 大脑层是具身智能体的认知决策核心,核心定位为:负责高层语义理解、环境认知、逻辑推理、全局任务规划与自然语言指令拆解,不直接参与底层运动控制、关节驱动与实时动作执行。类比人类大脑,核心职能是看懂环境、听懂指令、逻辑思考、拆解复杂任务,为整机系统输出全局决策方向与任务逻辑。 (一)大语言模型(LLM):具身智能的任务推理引擎 核心能力:涵盖人机自然语言交互、复杂长任务拆解、逻辑常识推理、多轮决策编排,可将人类生活化自然语言指令,转化为机器人可执行的结构化任务逻辑,同时应对开放场景的不确定性决策需求。从应用形态可分为通用基础大模型与具身专用微调大模型两大类别:经典模型:包括 LLaMA 系列、Qwen 系列、Vicuna、GPT-4o、Claude 等,具备极强的通用语言理解与逻辑推理能力,可完成多轮对话交互、子任务拆分、常识逻辑判断等基础认知工作,为具身智能提供通用知识与推理框架。前沿模型:以Embodied-LLM、具身专用微调 LLM、机器人端侧小参数量 LLM为代表,在通用大模型基座基础上,注入物理环境常识、机器人任务逻辑、空间交互规则等具身专属知识,强化复杂任务拆解的落地性与环境适配性,实现自然语言指令→任务逻辑→动作意图的平滑转换,弥补通用大模型在物理具身场景泛化不足的短板。 (二)视觉语言多模态模型(VLM):场景语义理解的感知桥梁 核心能力:视觉信息与语言语义跨模态融合对齐,实现复杂场景语义理解、开放词汇目标识别、环境场景语义标注,向上承接语言指令、向下输出结构化环境语义特征,搭建起视觉感知 — 语言理解 — 决策规划的关键桥梁。经典模型:包含 CLIP、FLAVA、ALIGN、Florence、BLIP 等,擅长实现图像与文本的双向匹配检索、通用物体与基础场景识别,可完成日常物体区分、基础空间语义理解,例如辨识杯子、餐具,理解 “桌子旁、沙发边” 等空间方位语义。前沿模型:以 EmbodiedGPT、Pelican-VL、轻量化具身专用 VLM、世界表征型 VLM 为代表,针对性强化动态复杂场景适配能力,可结合时序上下文完成场景语义推理;同时做端侧轻量化优化,适配机器人嵌入式部署需求,可自动识别厨房、客厅等专属场景,并理解对应场景下的作业意图。 (三)世界模型(World Model):物理环境交互的预判中枢 核心能力:学习真实世界物理运行规律,完成环境时空状态建模、未来场景时序预测、无交互虚拟推演与环境先验建模;可提前预判动态障碍物运动轨迹、自身动作带来的环境变化,为大脑高层决策提供物理规律依据,提升决策合理性与环境鲁棒性,是衔接大脑认知与小脑运动控制的关键中间层。技术架构:递归状态空间世界模型、Transformer 时空世界模型、JEPA 联合嵌入表征世界模型。经典主流以 Dreamer 系列(RSSM 递归状态架构)为典型,通过递归状态建模环境动态变化,实现短时序未来场景预测,预判物体运动、行人移动等基础动态行为。前沿模型:包括 Meta JEPA、Google Genie、ST-Transformer、具身专用时序世界模型,大幅提升长时序预测精度与复杂场景适配能力,支持多物体交互、光照变化、地形变化等复杂物理场景建模。 (四)视觉语言导航基础模型(VLN):语言驱动的空间决策向导 核心能力:自然语言指令到空间导航意图的转化,可理解 “直行、左转、绕行障碍物、前往指定点位” 等语义化导航指令,输出语义级空间路径意图,为导航规划提供高层语义指引,是大脑层负责空间认知与导航决策的专用模型。经典模型:以 Room-to-Room、REVERIE 为代表,主要适配室内结构化场景,可根据简单语言指令完成基础路径意图拆解与点位导航规划。前沿模型:包含 MobileVLA、LM-Nav 大模型导航分支,融合大模型深度语义理解与空间几何建模能力,适配室内外混合复杂场景,可解析长句、复杂约束类导航指令,同时支持动态环境下实时路径意图调整,导航泛化性与鲁棒性显著提升。
-
一、基本信息本文共计:1400+字,阅读时长:4~8分钟。本文主要介绍在具身智能领域下,具身智能数据采集的常见方式及相关介绍,通过对本文的阅读学习,能够帮助读者更全面、清晰的,了解到当下具身数采的相关知识。 二、具身数据特征具身数据不同于传统视觉数据集或语音语料数据,它是具身机器人与环境交互过程中产生的全状态时空序列数据,是具身机器人在真实物理世界稳定运行的核心基础。其具备以下常见的典型特征:1. 多模态耦合:视觉、深度、力觉、触觉、关节位置、力矩、本体姿态等多维度信息高度绑定、协同互补,而并非简单叠加,可解决单一模态数据的局限性,为机器人精准决策提供支撑;2. 物理闭环:机器人动作与环境物理交互形成“动作输出—反馈采集—动作调整”的完整闭环,包含接触、碰撞、滑移、夹持力、物体形变等真实物理反馈;3. 长时序连续:从原子操作到复杂任务,数据采集保持时间连续、状态完整,支撑模型学习完整任务逻辑与动作关联,是具身机器人实现复杂任务自主执行的前提;4. 强对齐性:所有传感器必须在统一时空坐标系下严格同步,是多模态数据协同作用、模型准确理解交互关系的基础。可以说,没有高质量具身数据,再强大的模型架构也难以在真实物理世界中稳定运行。5. 噪声固有性:具身数据在采集过程中,受传感器、环境、交互随机性影响,会天然包含噪声,这种噪声固有性并非缺陷,反而使得具身数据更贴近真实物理世界的状态,可帮助模型提升抗干扰能力。 三、具身数采路线当前行业形成了四条相对成熟、互补共存的数据采集技术路线,分别是:真机遥操作采集、人类动作捕捉采集、仿真合成数据、互联网视频与弱监督学习,各自在精度、成本、效率上存在显著差异。数据采集方式核心原理子类型&代表方案优势点劣势点场景匹配真机遥操作采集(Teleoperation)通过穿戴/手持设备,遥控机器人本体,同步记录机器人全状态交互数据同构遥操:人形/灵巧手操控同款机器人穿戴式外骨骼:全身/手部力反馈手套 数据精度最高,含关节位姿、力矩、力触觉、6DoF、视觉全模态 可直接落地,同机型零迁移训练成本高、效率低 强绑定机器人本体,跨机型复用率低适合高精度工业装配、医疗操作、精密组装,以及机型量产前最终微调无本体便携采集通过普通人用手机 + 低成本夹爪 / 动捕设备,在真实场景中 采集,无需机器人本体手持 UMI:通用夹爪+第一视角相机/手机+机械连杆轻量、成本极低、场景无限、规模化最快缺乏力觉 / 触觉、精度中等、数据质量参差。适合居家家务、办公桌面、商超零售、等碎片化、生活化强的场景人类动作捕捉(Motion Capture)采集真人自然操作数据,再映射到机器人关节空间光学动捕:红外相机阵列光惯融合:IMU+视觉穿戴式感知手套:角度编码器+触觉阵列动作自然、覆盖长尾场景 轻量、采集场景多样 缺失力 / 触觉、物理交互信息 人体与机器人之间存在映射畸变适合家庭服务、商超物流、日常操作,以及通用技能预训练仿真合成数据(Sim-to-Real)在虚拟引擎中生成海量机器人交互数据仿真平台:cloudrobo、NVIDIA Isaac、Unity、Gazebo、智元 AGIBotWorld零边际成本、可规模化至百万小时级 环境可控、全状态可观测 物理精度不足(柔性、摩擦、碰撞),存在Sim-to-Real Gap 真实环境泛化性差适合策略预热、环境探索、危险 / 极端场景训练,不适合最终落地验证互联网视频与弱监督学习从海量人类操作视频中反解动作、意图与语义知识公开视频数据集、 网络教学视频爬取近乎零成本、场景极度丰富 无力觉、精确时序、轨迹标签 数据噪声大、利用率低适合语义理解、常识学习、提升泛化能力,无法用于底层控制
-
一、基本信息本文共计:1600+字,阅读时长:5~9分钟。本文主要介绍在具身智能领域下,具身数据的常见分类、数据瓶颈及相关介绍,通过对本文的阅读学习,能够帮助读者更全面、清晰的,了解到当下具身数据的相关知识。 二、具身数据具身智能是一个感知-决策-执行-反馈-迭代的闭环数据流系统,从单机器人实验到规模化部署,数据流的完整性、实时性、标准化,直接决定智能体能否真实落地、泛化以及持续进化。具身智能所需要的数据,不是简单的“文本+图片+视频+动作”组合,它更需要的是全维度的、多模态的、时空对齐的、真实反馈的复杂信息集合,涵盖了视觉、听觉、触觉、动作、环境交互等多个维度。按照数据的来源与真实性,可以分为两大类:真实物理世界的交互数据、虚拟仿真环境的模拟数据。从感知多模态的角度,还可以细分为五类核心数据。简单类比人类婴儿的探索学习期,即为:眼睛看(视觉)、耳朵听(听觉)、手指触(触觉)、肢体动(力觉)、头脑思(记忆)的全链路覆盖。 数据维度数据定位类比硬件设备数据内容数据作用真实物理数据视觉感知数据智能体的“眼睛”,环境感知基础眼睛摄像头、激光雷达、深度相机等RGB图像、深度视频、3D点云、第一人称视角画面等识别物体位置、大小、判断距离、理解场景布局本体状态数据智能体的“身体感知”,自我状态监控肢体惯性传感器、编码器关节角度、电机电流、速度、力矩、位置坐标控制动作精准度,防止摔倒/碰撞触觉/力觉数据智能体的“皮肤”,精细交互核心皮肤电子皮肤、触觉传感器压力、滑觉、摩擦力、六维力反馈决定精细操作能力,是通用机器人关键动作轨迹数据智能体的“行为记忆”,任务执行路径小脑动捕设备、遥操设备遥操作示教、动捕采集的完整运动轨迹复刻人类操作,快速学习复杂任务语音/文本指令数据智能体的“耳朵”,人机交互入口耳朵麦克风语音命令、任务描述、语义标签增强交互自然,适配日常场景虚拟仿真数据合成视觉/场景数据低成本预训练素材,补充真实数据不足模拟器/虚拟环境渲染图像、极端场景(暴雨/黑暗)合成画面扩充数据集,训练鲁棒性仿真动作/交互数据大规模基础能力训练“题库”模拟练习/虚拟机器人抓取、搬运、避障的模拟数据快速试错,优化运动算法互联网视频迁移数据低成本行为参考库学习教程/人类日常操作视频、开源动作数据集学习人类行为模式,降低采集成本 三、数据瓶颈 1.异构本体导致数据孤岛,使得跨本体复用性差不同构型的机器人(轮式、人形、四足),其传感器布局、关节自由度、控制接口等硬件差异显著。使得采集的数据好似自带“本体烙印”,难以跨本体迁移和复用,这直接构成了数据共享与复用的巨大障碍。2.数据采集环节的成本高昂真机数据是高质量训练的数据基石,但总量远不及数字世界。具身智能所需要的数百PB级物理交互数据,存在巨大的数据缺口。在此背景下,真机数据采集的成本反而高居不下。赛迪智库分析报告指出,当下单台设备产生1万小时训练数据,甚至需要消耗上百万元。同时,人员成本也居高不下,一个数采员一天只能采集300~500条数据,面对复杂任务时产出更低。3.Sim2Real的鸿沟显著,仿真数据迁移受限物理引擎无法精准模拟接触、摩擦、柔性物体的形变等真实特性,仿真数据与现实环境之间存在GAP,限制了模型迁移效果。训练模型在真实场景性能衰减明显,仿真数据的泛化能力有限,难以覆盖非结构化、动态开放环境,出现“最后一公里”的落地难题。4.数据质量与评估体系的缺失,使得规模化落地困难数据质量(信噪比、时空对齐精度、因果链完整性)参差不齐,缺乏标准化评估指标与认证体系。无论是数据采集的格式、标注的标准、评测框架,还是数据质量的评估,都缺乏统一的标准。使得不同模型结果难以横向对比,阻碍技术迭代与规划化应用。5.隐私与安全风险突出,合规问题暴露多模态数据采集过程中,极易过度收集人脸、声纹等敏感信息,时空关联后可构建出精细的个人画像,对个人隐私的泄露造成巨大的风险。同时,在公共场所运行数据采集时,造成对第三方数据的无意采集,也容易产生不可预见的风险。
-
本文共计:3300+字,阅读时长:14~18分钟。一、前言:阅读定位与核心价值本文聚焦具身智能进阶攻坚阶段两本核心书目:《具身智能原理与实践》《具身智能数据工程:标准、技术与实践指南》。面向已完成3本入门书籍(《具身智能》刘云浩版、《具身智能:从理论到实践》、《具身智能导论》)学习,具备具身智能基础认知、理论体系和基础技术应用能力的读者,为入门后的进阶学习提供清晰指引。核心定位:适配从“入门开发者”向“进阶开发者”转型的学习者,遵循“先夯实底层原理与核心技术→再补齐数据工程短板”的进阶逻辑,两本书各有侧重、相互支撑,形成“原理攻坚+数据落地”的完整进阶知识闭环,帮助学习者突破入门瓶颈,掌握具身智能核心技术与工程落地能力,为后续项目开发、技术深耕奠定坚实基础。阅读顺序:《具身智能原理与实践》→《具身智能数据工程:标准、技术与实践指南》二、核心书籍阅读推荐与内容详解(一)第一本:《具身智能原理与实践》 作者:林倞、张瑞茂、吴贺丰 | 出版社:电子工业出版社 | 出版时间:2024.121. 阅读推荐(适配性+优先级)优先级:★★★★★(进阶攻坚必看、技术内核核心书目)适配人群:已读完入门三本读物,具备具身智能基础概念、机器人基础、基础技术应用能力;想要深入拆解具身智能感知-决策-控制全链路底层原理的个人开发者;希望掌握三维视觉、NeRF、具身强化学习、大模型具身赋能、多智能体协同的进阶开发者;需要依托仿真平台做算法复现、项目自研的独立开发者;想往具身算法、机器人自主规划方向深耕的技术学习者。推荐理由:2025年全新出版,紧跟VLA大模型、三维具身、仿真训练等行业前沿;由IEEE Fellow(中山大学)权威专家编写,理论严谨、体系完整,具备极高的技术权威性;区别于入门书的浅度科普,直击底层原理+工程实践双维度,既讲“为什么”,又讲“怎么做”;不堆砌冗余复杂公式,侧重原理拆解、算法逻辑、平台实操,兼顾专业性与可读性;适配个人开发者无团队、无高端硬件的自学场景,依托通用仿真环境即可复现书中案例,是从入门走向专业研发的关键过渡书籍,完美承接入门阶段知识。2. 书籍内容介绍本书以8章完整系统化章节架构,自上而下拆解具身智能完整技术栈,打通大模型、三维视觉、强化学习、机器人控制、仿真部署之间的关联,兼顾原理溯源与工程落地实操,帮助个人开发者建立专业级具身智能技术体系,突破入门阶段的技术瓶颈,实现技术能力的进阶升级。核心章节与重点内容:● 基础进阶篇:升级具身智能底层范式,对比传统AI与具身AI的核心差异,详解脑-身-环境交互机理、大模型赋能具身智能的底层逻辑、VLA(视觉语言动作模型)基础架构,衔接入门阶段的核心知识点并做深度拔高,为后续技术攻坚奠定坚实基础。● 核心技术原理篇:本书核心章节,详细拆解六大核心技术模块——三维视觉(NeRF技术,重点讲解场景重建、实时渲染的原理与实操)、具身强化学习(具身场景下的强化学习算法设计、训练技巧,解决环境交互中的决策问题)、复杂场景SLAM(进阶版即时定位与地图构建,适配复杂动态场景)、机器人路径规划与避障(高阶算法设计,提升复杂环境下的导航稳定性)、多模态感知融合(视觉、雷达、IMU等多传感器数据融合逻辑与实操)、大模型具身赋能(VLA模型微调、提示词工程进阶),每个技术点均搭配底层原理解析、公式简化解读(避免过度复杂)和实操步骤,让个人开发者能吃透原理、学会应用。● 仿真与平台实践篇:基于英伟达仿真生态,详细讲解仿真环境搭建、虚拟场景构建、智能体训练闭环、模型微调与验证的完整流程,解决个人开发者缺少实体机器人硬件的学习痛点,提供低成本的实操方案,让开发者无需真机即可完成算法复现与项目验证。● 多智能体与落地篇:讲解多具身智能体协同机制、任务分配、交互决策逻辑,配套工业、家用服务机器人典型实战案例,给出技术选型、方案设计、代码落地的完整思路,帮助个人开发者将所学技术转化为实际项目能力,实现从理论到工程落地的跨越。核心亮点:技术体系完整、深度适中不晦涩,兼顾学术原理与工程落地,避免“纯理论难落地”“纯实操无深度”的问题;把零散的具身知识点串联成完整技术链路,帮助开发者建立系统化认知;仿真实操友好,适配个人开发者独立学习场景,无需高端硬件即可上手;内容前沿,覆盖当前具身智能核心技术热点,帮助开发者紧跟行业趋势,为后续数据工程、项目自研打下坚实的算法根基。(二)第二本:《具身智能数据工程:标准、技术与实践指南》 作者:夏轩、俞波、刘少山 | 出版社:人民邮电出版社 | 出版时间:2025.71. 阅读推荐(适配性+优先级)优先级:★★★★★(进阶工程必看、数据体系标杆书目)适配人群:已经掌握具身智能算法原理,卡在数据稀缺、数据集难构建、真实仿真数据割裂问题上的个人开发者;想要学习多模态数据采集、清洗、标注、对齐、Sim2Real迁移的工程型开发者;计划自建具身数据集、做小模型微调、定制化具身任务开发的独立开发者;从事机器人、具身智能体研发,需要建立数据工程规范与流程的学习者;希望解决“算法会用,但没有数据支撑落地”痛点的进阶开发者。推荐理由:2025年7月新出版,是国内首部专门聚焦具身智能数据工程的专著,填补市面上只讲算法、不讲数据全链路的空白;由AIRS具身智能中心核心团队(夏轩、俞波、刘少山)撰写,完全贴合工业界真实开发流程,实操性极强;从行业标准、技术流程、工具链、实战案例四个维度,系统讲解具身智能数据全生命周期工程,完全适配个人开发者自建数据集、低成本做具身模型训练的需求;基于AIRSPEED开源项目,配套完整可复用的工程流程,学完即可应用到个人项目中,实用性拉满。2. 书籍内容介绍本书聚焦具身智能数据全生命周期工程,以“标准+技术+实践”为核心,系统讲解如何低成本、高质量构建具身智能数据集,解决行业普遍存在的数据量不足、质量差、Sim2Real迁移难、标注成本高等核心痛点,为具身智能算法落地提供坚实的数据支撑,衔接《具身智能原理与实践》的算法知识,形成“算法+数据”的完整进阶体系。核心章节与重点内容:● 数据工程基础篇:定义具身智能数据类型(视觉、雷达、IMU、动作数据等)、行业规范与质量评价标准,梳理多传感器数据的核心特征与采集要求,建立具身数据工程的整体认知框架,让开发者明确“什么是合格的具身数据”“数据工程的核心流程是什么”。● 数据采集与构建篇:详解真实物理场景数据采集方案(低成本采集设备选型、采集流程、数据同步方法)、仿真环境自动化数据生成策略(基于主流仿真平台,批量生成标注数据)、多模态数据同步与时间对齐技术,适配个人开发者低成本自建数据的实操方案,降低数据采集的门槛与成本。● 数据处理与标注篇:讲解具身智能专属的数据清洗、去噪、帧筛选方法,重点介绍半自动标注、弱监督标注技巧,降低人工标注成本,解决个人开发者“标注工作量大、效率低”的痛点,同时讲解标注数据的质量校验方法,确保数据集的可用性。● Sim2Real与迁移工程篇:本书核心亮点章节,重点讲解仿真域到真实域的数据迁移、域自适应、数据增强策略,解决仿真训练模型无法落地真机的核心难题,给出具体的迁移流程与实操技巧,帮助个人开发者实现“仿真训练→真机落地”的闭环。● 项目实战与开源落地篇:基于AIRSPEED开源项目,配套完整的工程流程、工具链使用教程、数据集封装方法、模型训练数据闭环案例,每个步骤都清晰可操作,个人开发者可直接复用流程与方法到自己的项目中,快速实现数据工程的落地应用。核心亮点:定位稀缺,是具身智能数据工程领域从入门到精通的为数不多的系统读物,填补行业知识空白;不讲空泛理论,全是工业界真实工程流程、实操方法、可落地规范,实用性极强;兼顾个人开发者低成本方案与工业级标准,既适合个人自学,也能为后续职业发展提供规范指导;学完可独立完成从采数据、做标注、建数据集到模型训练的数据全链路,完美解决具身智能落地的核心数据瓶颈。三、后续衔接建议读完整套5本核心书籍(入门3本+进阶2本)后,个人开发者已具备具身智能入门认知+理论基础+智能体开发+底层算法原理+数据工程全链路能力,基本达到专业级具身智能研发入门水平。后续可继续研读国外经典英文专著、ICRA/IROS/CoRL等顶会论文,深入学习ROS2高阶开发、VLA大模型微调部署、复杂场景多智能体协同等内容,进一步提升技术深度与行业视野,稳步向专业级具身智能研发开发者、算法工程师转型。
-
本文共计:3500+字,阅读时长:14~18分钟。一、前言:阅读定位与核心价值本文聚焦具身智能入门期核心书单,整合3本核心读物——《具身智能》(刘云浩 著)、《具身智能:从理论到实践》、《具身智能导论》,面向零基础、想入门具身智能的个人开发者、转行从业者、高校学生及科技爱好者,明确每本书的阅读优先级、适配场景与核心价值,拆解书籍内容与学习重点,帮小白快速找到适合自己的入门路径。核心定位:适配具身智能零基础/入门级学习者,遵循“先建立全局认知→再入门技术实操→接着夯实理论基础”的科学学习逻辑,3本书各有侧重、相互衔接、层层递进,形成完整的入门知识闭环,帮助入门者避开盲目阅读,高效搭建具身智能基础体系,为后续技术攻坚、项目落地奠定坚实基础。阅读顺序:《具身智能》(刘云浩)→《具身智能:从理论到实践》→《具身智能导论》二、核心书籍阅读推荐与内容详解(一)第一本:《具身智能》 作者:刘云浩 | 出版社:中信出版社 | 出版时间:2025.011. 阅读推荐(适配性+优先级)优先级:★★★★★(入门首选·通识奠基必读书目)适配人群:完全零基础、想转行学习AI/具身智能的小白;非工科背景,想系统搞懂“具身智能是什么、为什么火、未来发展方向”的学习者;AI产品、行业研究、创业从业者,需要把握具身智能产业趋势;准备系统学习后续专业技术书籍,需要先搭建基础认知框架的入门读者。推荐理由:2025年1月最新出版,紧跟当下大模型、人形机器人、具身AI的最新行业趋势,内容不滞后、有前瞻性;作者刘云浩是清华大学资深教授、智能系统领域顶级专家,内容严谨不浮夸,既有学术高度,又能贴合小白认知;定位是通识科普,不讲复杂公式、不堆砌代码,专门帮小白建立“什么是具身智能、为什么它是AI下一个发展方向”的基础认知;读完这本书再看后面两本专业技术书,能轻松听懂专业术语、理解技术背后的逻辑,大幅降低后续阅读难度。2. 书籍内容介绍本书站在人工智能发展的全局视角,梳理AI从传统“离身智能”(只在虚拟世界运算,不接触物理世界)到大模型,再到“具身智能”(有物理身体,能在真实世界互动)的完整发展过程。跳出“具身智能就是人形机器人”的误区,从思想起源、理论逻辑、技术脉络、产业应用、未来趋势五个方面,用通俗的语言拆解具身智能的本质:智能体拥有物理身体,能在真实环境中感知、互动、学习、进步,打通大模型从“纯文本虚拟智能”走向“物理世界落地应用”的核心逻辑。全书语言通俗、结构清晰,兼顾历史回顾、原理解读与行业预判,是小白入门具身智能的最佳启蒙读物。核心章节与重点内容:● AI演进脉络梳理:回顾符号主义、联结主义、行为主义三代人工智能的兴衰与不足,讲清传统AI和大模型的天生局限,让小白理解具身智能诞生的行业背景和必要性。● 范式变革核心逻辑:详细解析“离身智能”的短板(比如无法感知真实世界、不会灵活互动),说明具身智能诞生的必然性,纠正“具身智能=人形机器人”的认知误区,明确具身智能的核心定义。● 具身智能底层原理:用通俗的语言讲解“身体、环境、感知、认知、决策、行动”的闭环逻辑,不用复杂公式,小白也能看懂具身智能的底层运作机理,建立基础认知框架。● 关键技术全景概览:对多模态感知、环境交互、学习进化、大模型赋能具身等核心技术方向做全面介绍,帮助小白建立初步的具身智能技术认知,不用深入钻研细节。● 产业落地与未来展望:介绍具身智能在人形机器人、智能制造、家庭服务、智慧城市等领域的应用场景,分析行业机遇、技术瓶颈与长期发展趋势,拓宽小白的行业视野。核心亮点:入门门槛极低,没有数学公式、不需要专业前置知识,小白能从头到尾顺畅读完;格局宏大、体系完整,不只是讲技术,还会讲行业思想、发展范式,帮小白建立具身智能的顶层认知;权威且时效性强,2025年初新作,贴合当前行业最新动态,观点有长期参考价值;承上启下作用突出,作为入门第一本,能为后续专业技术书籍做好认知铺垫,让小白学习技术时不突兀、能跟上。(二)第二本:《具身智能:从理论到实践》 作者:易显维、吴凯 | 出版社:清华大学出版社 | 出版时间:2025.101. 阅读推荐(适配性+优先级)优先级:★★★★★(入门核心·技术实操破冰书目)适配人群:已读完《具身智能》(刘云浩版),对具身智能有了全局认知的小白;完全零基础、想快速入门具身智能技术,希望兼顾“理解理论+动手实操”,不想只看纯理论的读者;需要快速搭建具身智能基础技术框架,为后续深入学习打基础的开发者。推荐理由:2025年10月最新出版,内容贴合当前具身智能技术前沿,作者是一线技术专家,避开晦涩难懂的纯学术表述,用“理论+代码”结合的方式,降低小白的入门门槛;覆盖具身智能核心基础知识点,衔接前一本书的通识认知和后一本书的理论内容,是入门期的“桥梁型”书籍,阅读难度低、实操性强,是小白技术入门的核心读物。2. 书籍内容介绍本书以AI发展脉络为切入点,打破“理论与实践脱节”的问题,系统讲解具身智能的核心定义、发展历程,以及入门必备的核心技术,全程配套完整可复用的代码实践,让小白能边学边练、快速上手,顺利实现从“通识认知”到“技术入门”的过渡。核心章节与重点内容:● 基础认知篇:拆解具身智能与传统AI的区别,讲解具身智能“脑-身-环境”协同的核心逻辑,通俗解读VLA(具身大型语言模型)的基本原理,衔接前一本书的通识内容,让小白快速衔接技术层面的认知。● 核心技术篇:重点讲解入门必备的技术,包括SLAM(即时定位与地图构建)、多传感器融合、ROS2(机器人操作系统)、视觉语言导航(VLN),每个技术点都搭配简单易懂的原理解析,不堆砌复杂公式,重点讲“是什么、怎么用”,贴合小白认知。● 实践操作篇:配套完整可复用的代码,基于常见的开发工具,讲解简单具身智能场景的实操案例(比如简单机器人导航、视觉感知),步骤清晰,小白可直接跟着操作,快速实现“从理论到实践”的落地,建立学习信心。核心亮点:兼顾通俗性与实操性,知识点覆盖全面,衔接前后书籍内容,是入门期小白最易上手、性价比最高的技术入门书籍;代码案例可直接复用,降低小白的实操门槛;能帮助小白快速建立具身智能的技术认知,避免“入门即放弃”的困境。(三)第三本:《具身智能导论》 作者:刘华平、郭迪、孙富春 | 出版社:高等教育出版社 | 出版时间:2024.101. 阅读推荐(适配性+优先级)优先级:★★★★★(入门核心·理论夯实书目)适配人群:已读完《具身智能》(刘云浩版)和《具身智能:从理论到实践》,对具身智能有初步认知和简单技术基础,需要夯实理论基础的小白;希望深入理解具身智能核心机制,不只想单纯掌握实操技巧的读者;后续想向技术深度方向发展,需要完善理论体系的开发者。推荐理由:由高校权威团队(刘华平、郭迪、孙富春)撰写,理论权威性强,内容系统严谨,重点弥补前两本书的理论深度不足;2024年10月出版,内容贴合当前技术趋势,不滞后;以“导论”为定位,结构清晰,侧重讲解具身智能的体系结构与核心原理,为小白后续进阶学习奠定理论基础,是入门期“理论拔高”的核心书籍。2. 书籍内容介绍本书聚焦具身智能的理论体系,系统梳理具身智能的内涵、体系结构与发展趋势,避开复杂的工程化实操,重点讲解“为什么这么设计”“核心机制是什么”,帮助小白从“知道怎么用”(知其然)走向“知道为什么这么用”(知其所以然),实现从“技术入门”到“理论夯实”的提升。核心章节与重点内容:● 体系结构篇:详细讲解具身智能的整体架构,拆解感知、决策、执行三大模块的协同逻辑,分析“脑-身-环境”三者的交互机制,让小白理解具身智能系统的核心构成,衔接前一本书的技术知识点。● 核心原理篇:重点讲解形态计算、视觉导航、主动感知、具身学习与多智能体协同的核心原理,结合简单实例(比如机器人主动避障、多机器人协同作业),让抽象的理论变得易懂,避免纯学术化表述,贴合小白认知。● 发展趋势篇:梳理具身智能的当前挑战、技术突破方向,介绍行业前沿应用场景(比如服务机器人、工业机器人),帮助小白拓宽行业视野,明确后续学习重点,为进阶学习做好铺垫。核心亮点:理论体系完善,权威性强,难度适中,紧密衔接前两本书的内容,侧重理论深度,帮助小白夯实基础,避免“只会用、不懂原理”的问题;是入门期“理论夯实”的关键书籍,能为小白后续进阶学习筑牢理论根基。三、后续衔接建议读完这三本核心入门书籍后,小白已具备具身智能的基础认知、理论体系和基础技术应用能力,顺利完成从“小白”到“入门开发者”的转变。后续可无缝衔接进阶两本核心书籍:《具身智能原理与实践》《具身智能数据工程:标准、技术与实践指南》,进入技术攻坚与数据工程实战阶段,进一步实现实践落地,向具身智能进阶开发者转型。
-
实操案例介绍什么是JiuwenSwarmJiuwenSwarm是基于openJiuwen智能体开发平台打造的个人专属 AI 助理,JiuwenSwarm 的核心使命是「懂你所想,自主演进」。针对你的各种复杂输入场景,如任务追加、打断、修改等,它就是懂你的贴身任务管家,将你的各类需求排出优先级,并有条不紊地完成;同时它也能在你身边自主演进,当你对它表达不满或运行出错时,它会根据你的反馈自动调整相应技能,全心全意为你服务。实操内容概述本案例将指导开发者从零开始,完成JiuwenSwarm的安装,并使用technical-blog-generator技能实现一份小红书推文。全程约5-10分钟,开发者将完整体验AI智能体辅助办公的全流程。应用场景在办公场景中,宣传推文编写是常见需求,但传统方式需要耗费大量时间进行资料收集、内容编排和排版设计。本案例基于小红书宣传短文这一典型场景,演示如何借助AI智能体实现宣传短文的自动化生成,大幅提升宣传效率。解决的问题效率问题:传统宣发推文制作耗时耗力,从资料调研到排版设计往往需要数小时甚至数天内容问题:缺乏专业资料支撑,内容空洞或存在信息偏差排版问题:缺乏设计经验,推文视觉效果不佳开发者收获完成本案例实操后,开发者将获得:一份可直接使用的小红书宣发流程:指定主题,自动完成小红书推文撰写与发布AI办公思维:理解智能体辅助办公的工作模式,可迁移到其他文档生成场景效率提升认知:体验AI赋能办公的价值,为后续深度使用奠定基础 前置准备Windows 10/11操作系统Python环境、Git环境等 实操步骤一、安装JiuwenSwarm访问JiuwenSwarm官方项目地址,参考README,完成安装。快速安装和使用指令:二、完成JiuwenSwarm配置完成主对话模型配置和视觉模型配置(可选)三、安装technical-blog-generator技能四、使用配置技能生成小红书宣传短文1.在JiuwenSwarm对话窗口选择“规划模式”,并在输入框填入指令,如“帮我基于openJiuwen的最新发布的Coordination Engineering相关博客发步一个小红书技术贴,本次主要聚焦于agent team内容”JiuwenSwarm创建Todo列表并依次执行任务,具体任务如下:1)执行信息检索,获取相关信息2)提取关键信息,形成证据台账3)判断帖子类型与配图策略4)生成宣传短文初稿5)文本质量审查和事实自检6)生成配图文案7)用户二次确认:确认文本初稿、配图是否符合预期,不符合预期则修改;确认是否使用浏览器自动发布8)用户确认后自动执行发布:首次发布需要登录小红书账号,后续无需登录可直接发布部分过程如下:2.小红书推文效果预览: 案例总结通过本案例实操,我们体验了基于JiuwenSwarm自动生成小红书宣传推文,完整流程包括:步骤功能说明下载安装pip安装,一键部署需要准备python环境配置主对话模型,视觉模型自定义大模型服务需要准备大模型服务的api key输入指令前端输入框直接输入需要说明宣传推文主题,参考对象信息(可选)登陆小红书首次需要验证,后续无需验证主要用于小红书笔记发布
-
为什么训练作业中使用os.system('cd xxx')无法进入相应的文件夹呢
-
## EI企业智能2022年7月高热贴合集 以下是EI企业智能板块在2022年7月份的高热贴的合集,虽然今年的三伏天已热的突破历史,但本月AI开发平台ModelArts、数仓GaussDB(DWS)板块的热度更高。 另外板块名称有一些小小的修改,比如 **ModelArts** 改为了 `AI开发平台ModelArts` **HiLens** 改为了 `华为HiLens & ModelBox` 新名称新气象啊~ ## 数仓GaussDB(DWS) GaussDB 8.0.0.1版本 巡检工具806,互信中提到的sshTool.sh文件从哪里获取?https://bbs.huaweicloud.com/forum/thread-193193-1-1.html autovacuum如何配置可以实现定时全库全表analyse?https://bbs.huaweicloud.com/forum/thread-193348-1-1.html 【DWS】【sql】pg_stat_user_functions 为什么没有数据:https://bbs.huaweicloud.com/forum/thread-193726-1-1.html dws中sql在执行Streaming(type: REDISTRIBUTE)之前先进行HashAggregate是否能提升性能:https://bbs.huaweicloud.com/forum/thread-193978-1-1.html 【GaussDB 8.1.1】【Oracle的months_between函数迁移】Oracle函数迁移效率不行:https://bbs.huaweicloud.com/forum/thread-193925-1-1.html gaussdb如果查询所有表名及主键字段名称?或者如何查询单表的主键字段名称:https://bbs.huaweicloud.com/forum/thread-193958-1-1.html 如何通过sql实现全表的分析:https://bbs.huaweicloud.com/forum/thread-194033-1-1.html 修改autovacuum参数时报错:https://bbs.huaweicloud.com/forum/thread-193927-1-1.html MRS的Flink连接DWS,运行12小时报错:https://bbs.huaweicloud.com/forum/thread-194438-1-1.html dws执行计划中的actual time代表什么:https://bbs.huaweicloud.com/forum/thread-194574-1-1.html 为何 DWS to_date(xxx,'yyyymmdd')关联比 cast(xxx as date) 关联效率慢:https://bbs.huaweicloud.com/forum/thread-194316-1-1.html 【数仓GaussDB(DWS)】【bytea类型】使用postgresql.jar驱动包解析出错:https://bbs.huaweicloud.com/forum/thread-195190-1-1.html 【华为云DWS】【ODBC】PHP ODBC连接公有云上的DWS数据库怎么操作啊:https://bbs.huaweicloud.com/forum/thread-195440-1-1.html 【GaussDB】【bytea类型】column "bytes_" is of type bytea but expressio:https://bbs.huaweicloud.com/forum/thread-195501-1-1.html GaussDB(DWS)存储过程exception捕捉others异常后,记录日志的语句不会提交:https://bbs.huaweicloud.com/forum/thread-195599-1-1.html ## AI开发平台ModelArts 【CodeLab】开发环境有点老,有计划更新吗:https://bbs.huaweicloud.com/forum/thread-192975-1-1.html 2022华为开发者大赛 · 崇本英才·智汇吴江· 无人车挑战赛 判分失败 scoring job failed:https://bbs.huaweicloud.com/forum/thread-193791-1-1.html 【沈阳昇腾创新中心+openlab训练回归模型警告问题】(NPU使用问题):https://bbs.huaweicloud.com/forum/thread-193768-1-1.html 用yolov5模型训练,上传数据集应该遵循哪种格式,是否需要添加验证集?https://bbs.huaweicloud.com/forum/thread-193706-1-1.html ModelArts支持视频流分析吗? https://bbs.huaweicloud.com/forum/thread-193943-1-1.html modelarts训练作业时,从obs下载文件,下载速率是多少?https://bbs.huaweicloud.com/forum/thread-193705-1-1.html 【Codelab】请问下Codelab里打开的notebook,是否可能SSH接入:https://bbs.huaweicloud.com/forum/thread-194854-1-1.html 【ModelArts】【Notebook】VScode不能用SSH连接ModelArts Notebook:https://bbs.huaweicloud.com/forum/thread-194556-1-1.html ModelArts训练开发故障“临终遗言“:https://bbs.huaweicloud.com/forum/thread-194442-1-1.html 【在线服务】【404】在线服务部署后预测失败是什么原因呀:https://bbs.huaweicloud.com/forum/thread-194910-1-1.html 【数据集】【分割】请教一下这个数据集的annotation怎么看?https://bbs.huaweicloud.com/forum/thread-194873-1-1.html 【ModelArts产品】【模型训练功能】用coco2014数据集训练yolov3-darknet53模型报错:https://bbs.huaweicloud.com/forum/thread-194920-1-1.html 金融情绪分析FinBERT 无法正常跑通(调小batch):https://bbs.huaweicloud.com/forum/thread-195281-1-1.html 【ModelArts产品】【模型训练功能】tacotron2训练报错,缺少unidecode模组:https://bbs.huaweicloud.com/forum/thread-195327-1-1.html notebook的资费是不是涨了:https://bbs.huaweicloud.com/forum/thread-195442-1-1.html ## 华为HiLens & ModelBox 用hilens studio创建技能时,再导入OM文件时,一直在报导入模型失败:https://bbs.huaweicloud.com/forum/thread-194172-1-1.html hilens 技能开发页面导入自己模型,启动技能没反应:https://bbs.huaweicloud.com/forum/thread-193032-1-1.html HiLens如何用HDMI来连接显示屏:https://bbs.huaweicloud.com/forum/thread-193510-1-1.html hilens设备告警看不懂,日志内容怎么看:https://bbs.huaweicloud.com/forum/thread-194133-1-1.html hilens studio与手机摄像头实现视频流显示的错误:https://bbs.huaweicloud.com/forum/thread-194162-1-1.html hilens怎么保存视频(推理后):https://bbs.huaweicloud.com/forum/thread-194037-1-1.html hilens的摄像头如何录制视频,并且保存在自己想要保存 的位置:https://bbs.huaweicloud.com/forum/thread-194434-1-1.html 打不开hilens kit的ip地址:https://bbs.huaweicloud.com/forum/thread-194688-1-1.html ## 混合云FusionInsight hive元数据库连接:https://bbs.huaweicloud.com/forum/thread-192987-1-1.html Flink的准备安全认证问题:https://bbs.huaweicloud.com/forum/thread-193349-1-1.html flink提交任务运行失败:https://bbs.huaweicloud.com/forum/thread-193657-1-1.html 如何查看sceurity 是否配置成功(Flink客户端):https://bbs.huaweicloud.com/forum/thread-193744-1-1.html Flink的JDBCsink,batchintervalMs和BatchSize参数问题:https://bbs.huaweicloud.com/forum/thread-195124-1-1.html spark客户端提交代码报错Unable to obtain password from user 找不到密码:https://bbs.huaweicloud.com/forum/thread-195544-1-1.html ## MapReduce服务 【MRS产品】【hetuengine功能】hetu配置clickhouse数据源与clickhouse查询的结果不一致:https://bbs.huaweicloud.com/forum/thread-192997-1-1.html 【MRS产品】【hetu配置数据源功能】hetu是否能配置hive的内置元数据库数据源:https://bbs.huaweicloud.com/forum/thread-193786-1-1.html 【MRS】【hetu查询】进入hetu命令行不管输入什么都报错:Error running command: java.net.:https://bbs.huaweicloud.com/forum/thread-195417-1-1.html
-
创想无限,2022华为开发者大赛邀你来挑战!作为华为ICT领域的顶级赛事,本次大赛分为云底座和产业两大赛道,包含云应用创新、代码上太空、世界难题、无人车等7大赛事,总奖金额高达500万。从7月开始,华为云将围绕AI、IoT、PaaS、数据库、媒体、容器、数通等领域,陆续举办赛题解读系列直播活动,分享技术干货和实战经验,为参赛团队和选手提供专业技术指导。7月18日,华为开发者大赛赛题解读直播第五场热力继续。本场直播中,华为云EI产品的技术专家将解读赛题相关的关键技术要点,并现场答疑,指导参赛选手快速的上手华为开放技术能力。直播主题华为开发者大赛——如何使用华为云EI产品做创新应用开发直播时间2022年7月18日19:00-20:00直播内容ModelArts一站式AI开发平台使用及介绍AI gallery介绍AI应用框架ModelBox使用及介绍报名方式 扫描二维码 立即预约报名
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
即将直播
热门标签