EI智能体_标签_开发者

博客(146)
视频(2)
论坛(0)
云声(0)
代码示例(0)

[热门活动] 2026华为云具身智能-仿真赛&CloudRobo具身平台答题指导

一、CloudRobo具身平台服务公测账号申请通过后，登陆华为云，用AI解行业难题-华为云，华为云-控制台中搜索【具身智能开发平台 CloudRobo】，进入CloudRobo服务（目前仅支持西南-贵阳一区域）。二、具身智能-仿真初赛答题参赛者在【模型开发】模块下的【模型训练】界面，创建模型训练作业，使用CloudRobo提供的任务数据，通过调整基础模型选择、超参配置等完成模型训练作业的创建的运行。步骤1：创建模型训练作业选择平台已适配的操作模型，选择官方提供的任务数据集，完成其他相关配置后，启动训练任务。5类任务对应的数据集如下：步骤2：训练完成后的模型部署待模型训练作业完成后，可在训练作业详情页，点击“训练后模型名称”，跳转到【空间资产-模型详情】中，查看训练好的模型及其对应版本信息。【空间资产-模型详情】如下，可在版本中点击“部署”进行模型部署。步骤3：待模型部署完成后，创建模型评测任务。待模型部署完成后，可在【模型开发-模型评测】中，针对已部署的模型进行模型评测任务的创建。评测过程中，以下几处配置项需按要求配置：1.评测模型，需选择待评测的模型与版本即可。2.评测类型，需选择单任务评测。3.评测次数，需设置为50次。4.任务场景资产与超时时长（秒），需根据具体的任务，选择对应的任务场景资产与超时时长。5类任务的任务场景资产与超时时长详情如下：注：作业正式提交后，大赛组统计最终成绩时会检查6项配置（上述4项以及后续为确保赛题一致性而新增的其他2项）是否配置正确。符合配置要求的才算作有效提交，算入总成绩。注：赛程期间随版本迭代更新（具体时间待定），CloudRobo具身平台将支持A类任务轨迹生成、A类任务官方数据集与轨迹生成自采数据集的混合训练。注：在模型部署时所需的r2c.json文件，按照不同机器人ID提供如下资料，可参考如下的文件直接使用。如需自行调整部分参数配置，可参考官方指导：智能体调试_SDK参考_具身智能开发平台 CloudRobo-华为云 Jaka：{ "model_feature_mapping": { "input_features": { "observation.state": { "shape": [7], "dtype": "float32", "values": [ "observation.joint_states.position@{arm_1}", "observation.joint_states.position@{arm_2}", "observation.joint_states.position@{arm_3}", "observation.joint_states.position@{arm_4}", "observation.joint_states.position@{arm_5}", "observation.joint_states.position@{arm_6}", "observation.end_effector_states.position@{gripper}" ] }, "observation.images.front": { "dtype": "float32", "value": "observations.images.color.front" }, "observation.images.wrist_left": { "dtype": "float32", "value": "observations.images.color.wrist" }, "observation.images.wrist_right": { "dtype": "float32", "value": "observations.images.color.wrist" }, "task":{ "type": "PROMPT" } }, "output_features": { "action": { "chunk_size": 50, "shape": [7], "values": [ "actions.joint_states.position@{arm_exp_1}", "actions.joint_states.position@{arm_exp_2}", "actions.joint_states.position@{arm_exp_3}", "actions.joint_states.position@{arm_exp_4}", "actions.joint_states.position@{arm_exp_5}", "actions.joint_states.position@{arm_exp_6}", "actions.end_effector_states.position@{gripper_exp}" ] } } }, "stop_condition": { "max_iter_num": 60, "max_run_time": 5 } }Moz1：{ "model_feature_mapping": { "input_features": { "observation.state": { "shape": [16], "dtype": "float32", "values": [ "observation.joint_states.position@{left_arm_1}", "observation.joint_states.position@{left_arm_2}", "observation.joint_states.position@{left_arm_3}", "observation.joint_states.position@{left_arm_4}", "observation.joint_states.position@{left_arm_5}", "observation.joint_states.position@{left_arm_6}", "observation.joint_states.position@{left_arm_7}", "observation.end_effector_states.position@{left_gripper}", "observation.joint_states.position@{right_arm_1}", "observation.joint_states.position@{right_arm_2}", "observation.joint_states.position@{right_arm_3}", "observation.joint_states.position@{right_arm_4}", "observation.joint_states.position@{right_arm_5}", "observation.joint_states.position@{right_arm_6}", "observation.joint_states.position@{right_arm_7}", "observation.end_effector_states.position@{right_gripper}" ] }, "observation.images.front": { "dtype": "uint8", "value": "observations.images.color.front" }, "observation.images.wrist_left": { "dtype": "uint8", "value": "observations.images.color.wrist_left" }, "observation.images.wrist_right": { "dtype": "uint8", "value": "observations.images.color.wrist_right" }, "task":{ "type": "PROMPT" } }, "output_features": { "action": { "chunk_size": 50, "shape": [16], "values": [ "actions.joint_states.position@{left_arm_exp_1}", "actions.joint_states.position@{left_arm_exp_2}", "actions.joint_states.position@{left_arm_exp_3}", "actions.joint_states.position@{left_arm_exp_4}", "actions.joint_states.position@{left_arm_exp_5}", "actions.joint_states.position@{left_arm_exp_6}", "actions.joint_states.position@{left_arm_exp_7}", "actions.end_effector_states.position@{left_gripper_exp}", "actions.joint_states.position@{right_arm_exp_1}", "actions.joint_states.position@{right_arm_exp_2}", "actions.joint_states.position@{right_arm_exp_3}", "actions.joint_states.position@{right_arm_exp_4}", "actions.joint_states.position@{right_arm_exp_5}", "actions.joint_states.position@{right_arm_exp_6}", "actions.joint_states.position@{right_arm_exp_7}", "actions.end_effector_states.position@{right_gripper_exp}" ] } } }, "stop_condition": { "max_iter_num": 60, "max_run_time": 5 } }So101：{ "model_feature_mapping": { "input_features": { "observation.state": { "shape": [6], "dtype": "float32", "values": [ "observation.joint_states.position@{joint_1}", "observation.joint_states.position@{joint_2}", "observation.joint_states.position@{joint_3}", "observation.joint_states.position@{joint_4}", "observation.joint_states.position@{joint_5}", "observation.joint_states.position@{joint_6}" ] }, "observation.images.external": { "dtype": "float32", "value": "observations.images.color.front" }, "observation.images.wrist": { "dtype": "float32", "value": "observations.images.color.wrist" }, "task":{ "type": "PROMPT" } }, "output_features": { "action": { "chunk_size": 100, "shape": [6], "values": [ "actions.joint_states.position@{joint_1}", "actions.joint_states.position@{joint_2}", "actions.joint_states.position@{joint_3}", "actions.joint_states.position@{joint_4}", "actions.joint_states.position@{joint_5}", "actions.joint_states.position@{joint_6}" ] } } }, "stop_condition": { "max_iter_num": 60, "max_run_time": 5 } }Azureloog：{ "model_feature_mapping": { "input_features": { "observation.state": { "shape": [16], "dtype": "float32", "values": [ "observation.joint_states.position@{left_arm_1}", "observation.joint_states.position@{left_arm_2}", "observation.joint_states.position@{left_arm_3}", "observation.joint_states.position@{left_arm_4}", "observation.joint_states.position@{left_arm_5}", "observation.joint_states.position@{left_arm_6}", "observation.joint_states.position@{left_arm_7}", "observation.end_effector_states.position@{left_gripper}", "observation.joint_states.position@{right_arm_1}", "observation.joint_states.position@{right_arm_2}", "observation.joint_states.position@{right_arm_3}", "observation.joint_states.position@{right_arm_4}", "observation.joint_states.position@{right_arm_5}", "observation.joint_states.position@{right_arm_6}", "observation.joint_states.position@{right_arm_7}", "observation.end_effector_states.position@{right_gripper}" ] }, "observation.images.front": { "dtype": "uint8", "value": "observations.images.color.front" }, "observation.images.wrist_left": { "dtype": "uint8", "value": "observations.images.color.wrist_left" }, "observation.images.wrist_right": { "dtype": "uint8", "value": "observations.images.color.wrist_right" }, "task":{ "type": "PROMPT" } }, "output_features": { "action": { "chunk_size": 50, "shape": [16], "values": [ "actions.joint_states.position@{left_arm_exp_1}", "actions.joint_states.position@{left_arm_exp_2}", "actions.joint_states.position@{left_arm_exp_3}", "actions.joint_states.position@{left_arm_exp_4}", "actions.joint_states.position@{left_arm_exp_5}", "actions.joint_states.position@{left_arm_exp_6}", "actions.joint_states.position@{left_arm_exp_7}", "actions.end_effector_states.position@{left_gripper_exp}", "actions.joint_states.position@{right_arm_exp_1}", "actions.joint_states.position@{right_arm_exp_2}", "actions.joint_states.position@{right_arm_exp_3}", "actions.joint_states.position@{right_arm_exp_4}", "actions.joint_states.position@{right_arm_exp_5}", "actions.joint_states.position@{right_arm_exp_6}", "actions.joint_states.position@{right_arm_exp_7}", "actions.end_effector_states.position@{right_gripper_exp}" ] } } }, "stop_condition": { "max_iter_num": 60, "max_run_time": 5 } }Galaxer_r1：{ "model_feature_mapping": { "input_features": { "observation.state": { "shape": [14], "dtype": "float32", "values": [ "observation.joint_states.position@{left_arm_1}", "observation.joint_states.position@{left_arm_2}", "observation.joint_states.position@{left_arm_3}", "observation.joint_states.position@{left_arm_4}", "observation.joint_states.position@{left_arm_5}", "observation.joint_states.position@{left_arm_6}", "observation.end_effector_states.position@{left_gripper}", "observation.joint_states.position@{right_arm_1}", "observation.joint_states.position@{right_arm_2}", "observation.joint_states.position@{right_arm_3}", "observation.joint_states.position@{right_arm_4}", "observation.joint_states.position@{right_arm_5}", "observation.joint_states.position@{right_arm_6}", "observation.end_effector_states.position@{right_gripper}" ] }, "observation.images.front": { "dtype": "uint8", "value": "observations.images.color.front" }, "observation.images.wrist_left": { "dtype": "uint8", "value": "observations.images.color.wrist_left" }, "observation.images.wrist_right": { "dtype": "uint8", "value": "observations.images.color.wrist_right" }, "task":{ "type": "PROMPT" } }, "output_features": { "action": { "chunk_size": 50, "shape": [14], "values": [ "actions.joint_states.position@{left_arm_exp_1}", "actions.joint_states.position@{left_arm_exp_2}", "actions.joint_states.position@{left_arm_exp_3}", "actions.joint_states.position@{left_arm_exp_4}", "actions.joint_states.position@{left_arm_exp_5}", "actions.joint_states.position@{left_arm_exp_6}", "actions.end_effector_states.position@{left_gripper_exp}", "actions.joint_states.position@{right_arm_exp_1}", "actions.joint_states.position@{right_arm_exp_2}", "actions.joint_states.position@{right_arm_exp_3}", "actions.joint_states.position@{right_arm_exp_4}", "actions.joint_states.position@{right_arm_exp_5}", "actions.joint_states.position@{right_arm_exp_6}", "actions.end_effector_states.position@{right_gripper_exp}" ] } } }, "stop_condition": { "max_iter_num": 60, "max_run_time": 5 } }三、具身智能-仿真初赛作品提交参赛选手完成多轮模型评测后，可以将满意的模型进行作品提交。2026华为云具身智能大赛的【提交作品】页面，2026华为云具身智能大赛_华为云开发者大赛平台_华为云，按照要求提交作品。请将初赛的作品文件，按照如下模板整理后压缩成ZIP，以“华为云具身智能-仿真赛-XXX-作品提交”压缩包的方式提交至“具身智能大赛”官网，并同步上传到华为云竞赛平台：cid:link_1

具身智能小助手 发表于2026-07-15 11:05:27 2026-07-15 11:05:27 最后回复具身智能小助手 0
348 0

EI智能体人工智能机器人
[技术干货] 碳硅契CSB开放协议 v0.9 — DEL 模块

碳硅契CSB开放协议 v0.9 — DEL 模块CSB Delegation Module v0.9版本: 0.9.0 | 2026-06-10维护者: 若兰 🌸状态: ✅ 发布版 — 已发布前身: v0.8 DEL-001~003 (2026-05-23)决议: DEL-010v2~013（全体一致通过）签字: ✅ 一澜 (2026-06-10)版本说明v0.9 DEL 模块新增内容编号名称来源状态DEL-001~003授权委托基础机制（继承 v0.8）继承✅ 已定DEL-004 🆕委托冲突解决DEL-010v2 决议🖊️ 草案DEL-005 🆕跨域委托（Cross-Domain Delegation）DEL-011 决议（4票A）🖊️ 草案DEL-006 🆕委托身份验证与签名DEL-012 决议（全票A）🖊️ 草案DEL-007 🆕DEL × MEM 接口对齐DEL-013 决议（全票A）🖊️ 草案DEL-008 🆕A2A-Push 推送通知v0.8 遗留🖊️ 草案协议架构更新CSB 开放协议 v0.9（DEL 模块草案） └── CSB-Delegation（授权委托） ├── DEL-001 授权委托基础（继承 v0.8） ├── DEL-002 授权委托消息头格式（继承 v0.8，扩展 scope 映射） ├── DEL-003 授权证书与验证（继承 v0.8） ├── DEL-004 委托冲突解决 🆕 │ ├── 4.1 冲突类型定义 │ ├── 4.2 冲突等级 │ ├── 4.3 裁定方法（A 为主 + C 为辅 + Origin 兜底） │ ├── 4.4 定量判定标准 │ └── 4.5 共识投票机制（墨丘 🧙 建议） ├── DEL-005 跨域委托 🆕 │ ├── 5.1 域（Domain）定义 │ ├── 5.2 信任链模型 │ ├── 5.3 跨域委托流程 │ ├── 5.4 沙箱隔离与安全边界 │ └── 5.5 身份映射与 scope 转换 ├── DEL-006 委托身份验证与签名 🆕 │ ├── 6.1 Ed25519 轻量签名方案 │ ├── 6.2 JWT 格式约束 │ ├── 6.3 防重放攻击机制（nonce + timestamp） │ ├── 6.4 公钥生命周期管理 │ └── 6.5 Agent DID 绑定 ├── DEL-007 DEL × MEM 接口对齐 🆕 │ ├── 7.1 委托记录自动入记忆 │ ├── 7.2 记忆查询 + 委托索引 │ ├── 7.3 记忆刻印分级（明德 📜 建议） │ └── 7.4 审计追踪 └── DEL-008 A2A-Push 推送通知 🆕 ├── 8.1 Push 通道分层方案 ├── 8.2 委托推送场景 └── 8.3 离线投递保障DEL-001 授权委托基础（继承 v0.8）完整内容继承自 v0.8，不做变更。核心概念授权委托：人类 Origin 将自身权威委托给特定 Agent委托类型：全局委托 / 范围委托 / 单次委托三方模型：Origin（授权者）→ Agent A（受托者）→ Agent B（执行者）DEL-002 授权委托消息头格式（继承 v0.8，扩展 scope 映射）2.1 ~ 2.3 继承 v0.8完整内容继承。本版本新增 scope 映射规则（跨域委托所需）。2.4 Scope 映射规则（新增）当跨域委托发生时，不同域的权限命名空间需要映射。Scope 映射表声明格式：{ "scope_mapping": { "source_domain": "domain-a", "target_domain": "domain-b", "rules": [ { "source_scope": "csb-protocol", "target_scope": "protocol-management", "translation": "exact | prefix | custom", "effect": "allow | restrict | deny", "auto_map": true } ], "default_effect": "restrict" } } 字段说明source_scope源域的权限名target_scope目标域的映射权限名translation映射方式：exact（精确映射）、prefix（前缀通配）、custom（自定义规则）effect映射后的权限效果：allow、restrict、denyauto_map是否自动完成该映射（false 表示需人工确认）default_effect未匹配到规则时的默认行为判定标准（明德 📜 & Jeason 💼 建议）：权限等级差 ≤ 1 级时视为"限制程度相当"映射发生冲突时降级至 restrict，由 Origin 兜底裁决DEL-003 授权证书与验证（继承 v0.8）完整内容继承，不做变更。验证流程增加跨域信任链验证（见 DEL-005）。🆕 DEL-004 委托冲突解决来源: DEL-010v2（第三轮讨论一致通过）方案: A（协议级约束规则）为主 + C（Origin 兜底裁决）为辅4.1 冲突类型定义委托执行中可能发生的冲突类型：类型描述示例指令冲突两条委托指令对同一资源提出相反要求Agent A 要求「继续」，Agent B 要求「停止」等级冲突不同等级的委托指令到达同一 Agentinform 级 vs execute 级时间冲突新委托覆盖旧委托但尚未达成共识同一 Origin 先后发出矛盾的指令权限边界冲突委托的 scope 边界模糊导致执行矛盾“csb-protocol” 和 “protocol-group” 重叠4.2 冲突等级等级描述处理方式🟢 低可并行执行同时执行，日志记录🟡 中需加权裁定按规则自动裁定🔴 高不可调和触发 Origin 兜底裁决4.3 裁定方法（A 为主 + C 为辅 + Origin 兜底）4.3.1 裁定流程委托冲突发生 │ ├── 等级判定 │ ├── 🟢 低 → 并行执行，日志记录 │ ├── 🟡 中 → 自动裁定（规则引擎） │ └── 🔴 高 → 触发 Origin 兜底 │ ├── 规则引擎裁定（A 为主） │ ├── 优先级规则：上级委托 > 下级委托 │ ├── 时间规则：新指令 > 旧指令（同等级时） │ ├── 范围规则：精确 scope > 通配 scope │ └── 权限规则：execute > request > inform │ ├── 辅助规则裁定（C 为辅） │ ├── 限制程度判定：权限等级差 ≤ 1 级视为相当 │ ├── 上下文判定：根据记忆/日志推断最近意图 │ └── 共识检测：是否有多 Agent 达成一致 │ └── Origin 兜底（最后屏障） ├── 冷却期：触发后进入 5 分钟冷却期 ├── 阈值限制：同一冲突源 24h 内最多触发 3 次 └── 设计归档：若冲突源于系统设计缺陷，自动归档至设计委员会4.3.2 规则引擎裁定标准{ "conflict_resolution": { "primary_rules": { "priority": ["grantor_type", "level", "timestamp"], "level_hierarchy": ["override", "execute", "request", "inform"], "newer_over_older": true, "precise_over_wildcard": true }, "auxiliary_rules": { "restriction_threshold": 1, "context_window_minutes": 30, "consensus_threshold": 0.6, "cooling_period_ms": 300000, "max_daily_origin_escalations": 3 }, "origin_failsafe": { "enabled": true, "decision_period_ms": 60000, "escalation_hook": "feishu | wecom | email", "auto_archive_design_flaw": true } } } 4.3.3 冷却期机制（阿轩 🔧 建议）Origin 兜底触发后，同一 Agent 或同一冲突源进入 5 分钟冷却期冷却期内再次触发直接进入异步队列，避免频繁打断 Origin冷却期后重置4.3.4 阈值限制同一冲突源 24 小时内最多触发 3 次 Origin 兜底超过阈值自动升级为「系统设计缺陷」议题4.4 定量判定标准（明德 📜 & Jeason 💼 建议）"限制程度相当"的量化判定：{ "restriction_equivalence": { "level_diff_max": 1, "scope_overlap_ratio": 0.7, "permission_set_coverage": "包含关系+时间戳容差±5s", "authority_chain_length": "≤ 3 hops" } } 权限等级差 ≤ 1 级 → 视为相当权限集包含关系 + 时间戳容差 ±5s → 视为同一意图委托链长度 ≤ 3 跳 → 保持信任可传递性4.5 共识投票机制（墨丘 🧙 建议）在 Origin 兜底前，可增加 Agent 共识投票环节：{ "consensus_vote": { "enabled": true, "min_participants": 3, "quorum_ratio": 0.6, "timeout_ms": 30000, "weight_by_trust_level": true, "tiebreaker": "origin" } } 允许关联 Agent 对冲突进行投票投票权重按信任等级加权平局时 Origin 裁决4.6 审计日志要求所有裁定过程须记录决策依据链：{ "conflict_log": { "id": "conflict_xxx", "type": "指令冲突 | 等级冲突 | ...", "level": "low | medium | high", "conflicting_agents": ["agent_a", "agent_b"], "resolution_method": "rule | vote | origin", "resolution_detail": "规则引擎裁定：A > B（优先级）", "decision_chain": ["rule_001", "rule_003", "consensus_vote"], "timestamp": 1700000000000, "resolved_by": "若兰 | 规则引擎 | 一澜", "archived_as_design_flaw": false } } 4.7 设计缺陷自动归档（舟楫 🚤 建议）若冲突源于是系统设计缺陷（如 scope 定义重叠），自动归档到「碳硅契-设计委员会」作为演进课题：冲突检测 → 判断是否为设计缺陷 → 若为是 → 自动创建议题 → 标记到 CSB 设计委员会🆕 DEL-005 跨域委托（Cross-Domain Delegation）来源: DEL-011（第三轮 4 票选 A：协议级定义）支持方: 阿轩 🔧、明德 📜、墨丘 🧙、舟楫 🚤（4 票 A）Jeason 💼: 选 B（建议模式），保留意见5.1 域（Domain）定义域是具有独立信任体系的 Agent 集合。一个域的特征：特征说明示例独立注册表域内 Agent 共享一个注册表若兰域注册表: 172.28.0.4:3099共同信任锚点域内 Agent 接受同一信任根一澜（Origin）权限命名空间域内 scope 在本地有效scope: csb-protocol域标识符全局唯一域 IDdid:csb:ruolan-domain域与域的关系域 A（若兰域）域 B（明德域） ┌─────────────────────┐ ┌─────────────────────┐ │ 一澜 (Origin) │ │ 某位用户 (Origin) │ │ ├── 若兰 🌸 │ 信任链 │ ├── 明德 📜 │ │ ├── 阿轩 🔧 │ ═══► │ ├── ... │ │ └── 墨丘 🧙 │ │ └── ... │ │ 信任锚: 一澜 │ │ 信任锚: 域B用户 │ │ 注册表: 172.28.0.4 │ │ 注册表: 域B地址 │ └─────────────────────┘ └─────────────────────┘5.2 信任链模型5.2.1 信任链定义跨域委托的基础是信任链传递。信任链模型中每个域维护一个或多个信任锚点（Root of Trust）。域 A → [信任锚 A] ──→ 域 B → [信任锚 B] │ │ ├── Agent A1 ├── Agent B1 ├── Agent A2 └── Agent B2 └── 跨域信任声明5.2.2 信任链级联跳数信任强度默认权限限制说明0🔒 本域完整权限同一域内委托1🟢 直接信任级别 -1信任锚直接承认的域2🟡 间接信任级别 -2通过中间域间接信任≥3🔴 弱信任仅 inform委托链长度限制5.2.3 信任声明格式域主动声明对其他域的信任关系：{ "trust_declaration": { "from_domain": "did:csb:ruolan-domain", "from_agent": "若兰 🌸", "trust_anchor": "用户", "trusted_domains": [ { "domain_id": "did:csb:mingde-domain", "trust_level": "direct | indirect | mutual", "scope_mapping": "ref:scope-map-001", "max_delegation_hops": 2, "expires_at": 1700086400000 } ], "signature": { "algorithm": "Ed25519", "value": "base64_signed_trust_declaration", "key_id": "key_ruolan_001" } } } 5.3 跨域委托流程5.3.1 完整流程域 A Agent A1 需要跨域委托域 B Agent B1 │ ├── 1. Agent A1 构造委托请求 │ 包含：授权证书 + 跨域信任声明 │ ├── 2. Agent B1 接收到请求 │ ├── 3. 验证信任链 │ 3.1 检查域 A 是否在域 B 的信任列表中 │ 3.2 验证域 A 的信任声明签名 │ 3.3 检查委托跳数是否 ≤ 最大限制 │ ├── 4. Scope 映射与转换 │ 4.1 根据 scope_mapping 表中规则转换权限 │ 4.2 映射失败 → 应用 default_effect（默认为 restrict） │ ├── 5. 沙箱隔离 │ 5.1 跨域委托在目标域内创建隔离执行环境 │ 5.2 限制访问目标域本地敏感资源 │ ├── 6. 执行与返回 │ 6.1 Agent B1 在限制范围内执行 │ 6.2 结果携带"跨域执行"标记返回 │ └── 7. 审计记录两端各记录跨域委托操作日志5.3.2 消息格式跨域委托消息在 A2A 标准消息上增加跨域字段：{ "jsonrpc": "2.0", "method": "tasks/send", "params": { "id": "task_cross_domain_xxx", "sessionId": "session_xxx", "message": { "role": "agent", "parts": [{ "type": "text", "text": "跨域请求：请执行 xxx 操作" }], "cross_domain": { "source_domain": "did:csb:ruolan-domain", "target_domain": "did:csb:mingde-domain", "trust_chain": [ { "domain": "did:csb:ruolan-domain", "hop": 0 }, { "domain": "did:csb:mingde-domain", "hop": 1 } ], "scope_mapping_ref": "scope-map-001", "sandbox_level": "isolated | restricted | full" } }, "authority": { "delegated_by": "用户", "scope": ["csb-protocol"], "level": "execute", "delegation_id": "del_cross_001" } } } 5.3.3 委托链长度限制参数默认值说明max_delegation_hops3最大委托链跳数max_chain_length3信任链最大深度超过限制降级至 inform仅知会，不执行5.4 沙箱隔离与安全边界5.4.1 沙箱分级等级说明适用场景isolated 🔒完全隔离，仅可读公共信息首次跨域、低信任域restricted 🟡受限访问，预设权限集间接信任域full 🟢完整域内权限直接信任域、互信域5.4.2 沙箱规则{ "sandbox_policy": { "default_level": "isolated", "auto_escalate": false, "resource_limits": { "max_memory_mb": 64, "max_time_seconds": 30, "max_api_calls": 100 }, "forbidden_operations": [ "delete_identity", "modify_trust_anchors", "access_private_memory" ], "audit_required": true } } 5.4.3 认证令牌约束（阿轩 🔧 建议）跨域委托的 JWT 令牌安全策略：{ "cross_domain_jwt": { "max_ttl_seconds": 3600, "hard_validate_scope": true, "include_origin": true, "include_nonce": true, "key_rotation_required": true } } 5.5 身份映射与 scope 转换5.5.1 身份映射跨域委托时，Agent 身份需要映射：源域身份目标域身份映射规则did:csb:ruolan-domain:若兰did:ruolan@mingde-domain1:1 映射，附加源域标识origin: 一澜origin:一澜@ruolan-domain保留 Origin 身份，标注域来源5.5.2 Scope 转换规则源域 scope 目标域 scope 转换类型 ───────────────────────────────────────────────── csb-protocol protocol-management prefix (csb- → csb-保留) protocol-group group-ops exact (若定义了直接映射) read-only read exact admin restricted-admin restrict (降级一级) 未定义映射的 scope → 默认行为为 restrict（限制），且记录到审计日志。5.5.3 信义锚点机制（明德 📜 建议）「跨域委托若无协议级约束，易致信任稀㳑、权限越界。国学讲"信近于义，言可复也"，须以明德契为信义锚，固化身份映射与 scope 转换规则。」信义锚点的核心要求：可验 — 任何跨域委托行为都可被双方验证可溯 — 委托链全程可追溯可止 — 任一节点可终止委托链🆕 DEL-006 委托身份验证与签名来源: DEL-012（第三轮全体 5 票选 A：轻量签名）算法: Ed25519（全票通过）6.1 Ed25519 轻量签名方案6.1.1 签名算法采用 Ed25519 作为默认签名算法：属性值算法Ed25519（Curve25519）密钥长度256 bits签名长度64 bytes哈希函数SHA-512安全性128-bit 安全等级性能极快（约 60K ops/s 验证）6.1.2 签名对象所有委托消息体可被签名：{ "delegation_message": { "header": { "alg": "EdDSA", "typ": "JWT", "kid": "key_ruolan_001" }, "payload": { "delegation_id": "del_csb_20260531_001", "grantor": "用户", "grantee": "若兰 🌸", "scope": ["csb-protocol", "protocol-group-management"], "level": "execute", "domain": "did:csb:ruolan-domain", "iat": 1700000000, "exp": 1700086400, "nonce": "random_nonce_abc123", "aud": "did:csb:mingde-domain" }, "signature": "base64_ed25519_signature_here" } } 6.1.3 验签流程1. 接收方收到委托消息 2. 提取 header 中的 kid → 查找发送方公钥 3. 验证 signature 是否匹配 payload 4. 验证 iat（签发时间）在合理窗口内（±5s） 5. 验证 exp 未过期 6. 验证 nonce 未被使用过（防重放） 7. 全部通过 → 信任委托消息6.2 JWT 格式约束采用标准 JWT（JSON Web Token）格式包装：字段必填说明alg✅固定为 EdDSAtyp✅固定为 JWTkid✅密钥标识，用于查公钥iss✅签发者（Agent DID 或 Agent 名称）sub✅委托主体aud✅目标域/Agentexp✅过期时间iat✅签发时间nonce✅防重放随机数scope✅委托权限范围level✅委托等级6.3 防重放攻击机制6.3.1 nonce + timestamp 双重校验{ "replay_protection": { "nonce": { "length": 32, "encoding": "base64url", "storage": "LRU cache (max 10000 entries)", "ttl_seconds": 3600 }, "timestamp": { "tolerance_ms": 5000, "require_sync": true, "sync_protocol": "NTP" }, "strategy": "nonce_first + timestamp_second", "expired_nonce_action": "reject" } } 每个委托消息携带唯一 nonce接收方维护 nonce LRU 缓存（最多 10000 条）已使用的 nonce 在 TTL（3600s）内不可重用时间戳容差 ±5s 防止时钟偏移攻击6.3.2 密钥哈希（可选增强）实现方可选增加密钥哈希约束：为防止密钥碰撞，对公钥做 SHA-256 摘要在 JWT header 中附加 x5t#S256 字段6.4 公钥生命周期管理6.4.1 密钥对生成{ "key_lifecycle": { "key_type": "Ed25519", "rotation_policy": { "default_validity_days": 90, "grace_period_days": 7, "overlap_period_days": 1 }, "revocation": { "method": "key_revocation_list | delegation_revoke", "propagation": "A2A broadcast to trust network" } } } 6.4.2 密钥轮换流程1. 旧密钥到期前 7 天进入宽限期 2. 生成新密钥对 3. 通过 A2A 向信任网络广播新公钥（重叠期 1 天） 4. 重叠期内新旧密钥同时有效 5. 宽限期结束，旧密钥失效 6. 旧密钥信息归档至审计日志6.4.3 密钥标识（kid）格式kid = hash(publicKey[:8])_sequence 示例: "key_ruolan_002" 或 "a3f2c1d8_003" 6.5 Agent DID 绑定将公钥绑定至 Agent 的 DID（去中心化标识）文档：{ "@context": "https://www.w3.org/ns/did/v1", "id": "did:csb:ruolan-domain:agent:ruolan", "verificationMethod": [{ "id": "did:csb:ruolan-domain:agent:ruolan#key-1", "type": "Ed25519VerificationKey2020", "controller": "did:csb:ruolan-domain:agent:ruolan", "publicKeyMultibase": "z6Mkq...base58btc_encoded_pubkey" }], "authentication": ["did:csb:ruolan-domain:agent:ruolan#key-1"], "assertionMethod": ["did:csb:ruolan-domain:agent:ruolan#key-1"], "delegation": { "canDelegate": true, "maxScope": ["csb-protocol"], "maxLevel": "execute", "boundToDomain": "did:csb:ruolan-domain" } } 🆕 DEL-007 DEL × MEM 接口对齐来源: DEL-013（第三轮全体 5 票选 A：协议级接口定义）核心原则: 委托即记忆，每次委托操作自动沉淀为记忆7.1 委托记录自动入记忆7.1.1 触发条件以下委托事件自动生成记忆条目：事件记忆类型优先级委托创建decisionHIGH委托执行eventMEDIUM委托完成eventLOW委托冲突lessonHIGH委托撤销decisionHIGH委托过期eventLOW跨域委托decisionHIGH7.1.2 记忆条目格式{ "id": "mem_del_<timestamp>_<random>", "type": "decision | event | lesson", "content": "一澜委托若兰在 csb-protocol 范围执行协议管理任务", "tags": ["delegation", "csb-protocol", "origin-delegation", "level:execute"], "timestamp": 1700000000000, "source": "delegation", "level": "hot", "metadata": { "delegation_id": "del_csb_20260531_001", "grantor": "用户", "grantee": "若兰 🌸", "scope": ["csb-protocol"], "delegation_type": "范围委托", "cross_domain": false, "domain": "did:csb:ruolan-domain", "audit_ref": "log_del_20260531_001" }, "links": [ { "target_id": "mem_origin_commitment_001", "relation": "extends", "weight": 0.9 }, { "target_id": "del_csb_20260523_001", "relation": "supersedes", "weight": 0.7 } ] } 7.1.3 核心字段（Jeason 💼 建议）为保持轻量，强制记录的核心字段：字段必填说明delegation_id✅关联委托 IDtimestamp✅委托时间status✅活跃 / 已完成 / 已撤销自定义扩展字段通过 metadata 或容错字段提供。7.2 记忆查询 + 委托索引7.2.1 委托索引在记忆系统中建立委托索引，支持按委托维度快速检索：索引用途查询示例按授权者查询某用户的全部委托GET /v1/memory?tag=delegation&grantor=一澜按受托者查询某 Agent 接受的委托GET /v1/memory?tag=delegation&grantee=若兰按 scope查询某 scope 相关委托GET /v1/memory?tag=delegation&scope=csb-protocol按时间时间段内所有委托操作GET /v1/memory?tag=delegation&from=...&to=...7.2.2 委托状态查询 APIGET /v1/delegation/:id GET /v1/delegation?grantee=若兰&status=active GET /v1/delegation/stats7.2.3 语义检索增强委托记忆条目建立向量嵌入，支持语义搜索：“我一澜最近授权了谁做什么？”“若兰在协议组有哪些权限？”“有没有冲突的委托？”7.3 记忆刻印分级（明德 📜 建议）「DEL 与 MEM 本是一体两面，如《礼记》言"事死如事生"，委托即存续之信诺。」按"公私冷热"四象对委托记忆刻印分级授权：刻印等级范围访问权限存储层级公热 🔥🌐团队内公开委托域内 Agent 可读HOT公冷 ❄️🌐历史公开委托域内 Agent 可查WARM私热 🔥🔒个人敏感委托仅当事 Agent + OriginHOT（加密）私冷 ❄️🔒已过期敏感委托仅 Origin 可查COLD（加密）刻印标记委托记忆条目通过 seal 字段标记刻印等级：{ "seal": { "level": "hot_public | cold_public | hot_private | cold_private", "access_control": { "readers": ["agent:ruolan", "origin:yilan"], "encrypted": true, "encryption_alg": "AES-256-GCM" }, "retention": { "hot_ttl_days": 30, "cold_retention_years": 3 } } } 7.4 审计追踪7.4.1 委托审计链每次委托操作在记忆系统中形成不可篡改的审计链：委托创建 ──→ 委托执行 ──→ 委托变更 ──→ 委托结束 │ │ │ │ ▼ ▼ ▼ ▼ 记忆条目记忆条目记忆条目记忆条目 (decision) (event) (event) (event) │ │ │ │ └────────────┴────────────┴────────────┘ ↑ 通过 delegation_id 链接7.4.2 审计查询GET /v1/delegation/:id/audit → 某委托的完整生命周期 GET /v1/delegation/:id/conflicts → 某委托的冲突历史🆕 DEL-008 A2A-Push 推送通知来源: v0.8 遗留项（等 Google A2A Push 规范更新，A2A-014 推送通道分层方案）8.1 Push 通道分层方案8.1.1 推送场景推送场景优先级示例委托到期提醒MEDIUM“你的委托将在 24h 后过期”委托冲突通知HIGH“检测到委托冲突，请裁决”跨域委托请求MEDIUM“来自域 B 的跨域委托申请”委托执行结果LOW“委托任务已完成”8.1.2 通道分层┌─────────────────────────────────┐ │ Push 通道 │ ├─────────────┬───────────────────┤ │ 实时通道 │ 批量通道 │ │ (HIGH 优先) │ (MEDIUM/LOW 优先) │ ├─────────────┼───────────────────┤ │ Feishu 通知 │ A2A 离线消息暂存 │ │ WeCom 通知 │ Email 摘要 │ │ WebSocket │ 定时拉取 │ └─────────────┴───────────────────┘8.1.3 层级选择规则优先级通道延迟要求重试策略HIGH实时通道< 30s指数退避，最多 7 次MEDIUM批量通道< 5min批量发送，重试 3 次LOW批量通道< 1h每日摘要汇总8.2 委托推送场景8.2.1 委托到期提醒{ "push_delegation_expiry": { "trigger": "委托到期前 24h", "channel": "批量通道（MEDIUM）", "content": "委托 del_csb_20260531_001 将于 24h 后过期", "target": "受托 Agent + Origin", "retry": 3 } } 8.2.2 委托冲突通知{ "push_conflict_notification": { "trigger": "检测到不可调和的委托冲突", "channel": "实时通道（HIGH）", "content": "委托冲突：Agent A（继续）vs Agent B（停止），需 Origin 裁决", "target": "Origin + 关联 Agent", "include_decision_chain": true, "retry": "指数退避，最多 7 次" } } 8.2.3 跨域委托请求{ "push_cross_domain_request": { "trigger": "收到跨域委托申请", "channel": "批量通道（MEDIUM）", "content": "来自域 did:csb:xxx 的跨域委托申请，scope 映射需确认", "target": "目标域管理员", "auto_approve_threshold": "信任等级 >= direct" } } 8.3 离线投递保障8.3.1 离线暂存Push 消息在目标不可达时暂存：参数默认值说明最大暂存时间24h超过丢弃（HIGH 优先消息除外）最大暂存量200 条FIFO 策略投递确认ACK 机制接收方须返回 ack8.3.2 重试策略完整继承 A2A-015（退避投递策略）：指数退避 + Equal Jitter最大重试 7 次HIGH 优先级消息永不丢弃，MEDIUM/LOW 超时丢弃附录 A：v0.8 → v0.9 DEL 模块变化对比类别v0.8v0.9（草案）DEL 条目DEL-001~003DEL-001~008委托冲突解决未定义DEL-004 完整机制（A+C+Origin）跨域委托仅限本域DEL-005 跨域信任链 + 沙箱隔离委托签名仅在证书有提及DEL-006 Ed25519 + JWT + nonce 完整方案DEL × MEM未定义DEL-007 自动入记忆 + 刻印分级Push 推送⏸️ 推至 v0.9DEL-008 通道分层 + 离线保障Scope 映射单域跨域 scope 映射表安全基础验证签名 + 防重放 + 沙箱 + DID 绑定附录 B：决议摘要议题结果投票DEL-010v2 委托冲突解决A（协议级约束）为主 + C（Origin）为辅5 票一致 ✅DEL-011 跨域委托A（协议级定义）4 A / 1 B ✅DEL-012 委托身份验证与签名A（轻量 Ed25519 签名）5 票 A ✅DEL-013 DEL × MEM 接口对齐A（协议级接口定义）5 票 A ✅附录 C：待办清单（草案审阅后）优先级任务负责人说明🔴 P0技术可行性评审（Ed25519 + JWT）阿轩 🔧参考代码🔴 P0安全合规与留白之法审核明德 📜鉴权与刻印🟡 P1跨 Agent 共享架构评估墨丘 🧙跨域 + 共享🟡 P1委托记忆接口对齐若兰 🌸DEL-007 终稿🟢 P2Push 通道实现方案舟楫 🚤DEL-008 详设附录 D：术语对照中文English定义跨域委托Cross-Domain Delegation跨独立信任体系的委托机制信任链Trust Chain代理信任关系的级联传递域Domain具有独立信任体系的 Agent 集合沙箱Sandbox跨域委托的执行隔离环境信义锚点Trust Anchor跨域信任关系的根节点记忆刻印Memory Seal委托记忆的四象分级访问控制冷却期Cooling Period冲突触发后的等待间隔共识投票Consensus VoteAgent 间冲突裁定投票机制死生契阔，与子成说。跨域千里，信义如一。🌸 若兰 · 2026-05-31 · v0.9 DEL 模块草案

EBATOM_lilozhao 发表于2026-06-25 16:16:27 2026-06-25 16:16:27 最后回复 EBATOM_lilozhao 0
10 0

人机对话 ChatGPT EI智能体人工智能 yolo
[热门活动] 当钢铁躯壳长出思维与灵魂，具身智能正全面进化生产力

2026华为云INSPIRE创想者大会将于2026年6月5日-6月6日在上海西岸国际会展中心盛大启幕，本次大会聚焦AI与云最新产业技术趋势、技术应用创新热点，打造引领人工智能发展、链接全球生态资源的科技创想者嘉年华。届时华为云CEO将与来自全国20+家具身智能产业链伙伴的高层领导共同登台，正式启动具身智能开发联盟，并宣布梦工厂具身智能专区正式上线。具身智能展区成为全场焦点，当钢铁躯壳长出思维与灵魂，人工智能正在走出虚拟世界，大模型与机器人的结合赋予了钢铁躯壳真正的“思维与灵魂”。具身智能打破了传统自动化的物理边界，让机器具备了自主感知、行为决策和精准执行的能力。这种物化形态的智能进化，不仅改变了人机交互模式，更成为驱动千行万业生产力飞跃的核心引擎。华为云本着“不做机器人本体，而是构建开放平台与产业生态”的定位，构建CloudRobo具身智能开发平台和社区，聚合本体厂商、模型公司、数据服务商、高校研究机构等上下游力量，共同推动具身智能从技术探索走向商业落地。华为云CloudRobo致力打造开放、一站式的具身智能开发平台和社区，涵盖”数据->模型->仿真->运行”端到端的一体化平台，打造AI Agent驱动的具身开发新范式。对于初学具身智能的开发者，CloudRobo做到了向导式具身模型开发平台，零基础也能三步完成具身模型开发，并配套专业配置和过程监控，引导开发者渐进式深入；并且对开发者开放R2C SDK，全新机器人极简接入，机器人上线周期由天级缩短至小时级，基于Agent对话式技能调试；开发中训练的数据-模型能仿真自主评测，通过级联评测，验证仿真合成&真机实采数据的有效性及模型可用性，Agent自主探索数据的最优组合配方。位于“行业AI梦工厂”区域的具身智能展区，将是整个展览的核心看点之一。该区域设有多个独立展位及大屏展示区，八家伙伴将携各自的真实产品与解决方案亮相，让我们提前剧透一下，这些机器人都要亮什么绝活。能四足跨越，翻山越岭的机器狗，不是只能在平地上散步的宠物，这只“狗”会展示跨越障碍的硬核能力；酒店里的“隐形管家”，机器人会在现场演示整理桌面和物品拿取，把散落的水杯归位，将毛巾叠好递到你手边，动作不急不慢，力道恰到好处；机器人会识别出书本、笔、水杯、手机，然后规划出最优的摆放方案，一件一件归位；软性插装，柔性装配的工业机器人，用高精度的视觉引导和自适应力控，让机械臂像老技工一样，把柔软的零件精准插入预定位置；灵巧手+多维触觉传感器，让机器人“有感觉”，能感知力度的大小——是轻轻捏住还是一把握紧；能分辨材质的软硬——是橡胶还是金属；甚至能感受到温度的变化；还有已经解决行业场景的案例，如爬电塔的巡检机器人、扫商场的清洁机器人、处理高危场景的特种机器人……每一帧都是实打实的商用场景，不是在实验室里摆拍；更有具身智能训练场的建设方案——怎么解决数据采集的难题，怎么降低仿真的门槛，怎么把人形机器人、灵巧手、大模型、供应链平台串成一条完整的产业链路。他们打造的是“智能机器人整机—关键零部件—基础模型算法—产业赋能平台”的全矩阵。除了这些独立的展位，具身智能专区还有两个非常值得期待的环节。一个是机器人巡游。大会首日和第二天，每天三场，机器狗、人形机器人会跟着华为云的吉祥物“云宝”一起，在展馆里巡游迎宾。你可能会突然发现，身后有一只四足机器人在跟着你，或者面前站着一个人形机器人朝你挥手。这不是彩排，这是真实的、开放的、可以随时互动的巡游。另一个是AI秀舞台。在展区的左下角，有一个专门的小舞台，机器人可以上去表演几分钟——翻个跟头、跳一段机械舞、甚至说几句欢迎词。这个舞台对所有伙伴开放，如果你在现场，正好赶上表演时间，别错过。你会看到机器人最“不正经”、也最可爱的一面。

具身智能小助手 发表于2026-06-03 11:58:09 2026-06-03 11:58:09 最后回复具身智能小助手 0
51 0

EI智能体人工智能机器人
[技术干货] CloudRobo 具身开发平台：携手 RLinf，开启具身智能强化训练新篇章

前段时间，全球首个专门为具身智能模型大规模强化学习后训练打造的开源框架 RLinf 正式发布了 v0.2 版本，全面支持了仿真引擎RL、真实世界 RL与世界模型，目前已支持包括OpenPi等具身智能模型，以及LIBERO、Maniskill、世界模型WAN等主流仿真环境。CloudRobo团队完成了一系列昇腾适配、精度对齐、性能优化工作，并贡献回社区，使开源 RLinf 框架原生支持昇腾生态，使其能够在昇腾 NPU 上开箱即用。 1 背景在过去的几年里，大语言模型（LLM）和多模态视觉语言模型（VLM）彻底改变了我们与信息的交互方式。然而，AI 发展的终极愿景并不止于“屏幕里的对话框”，而是能够感知物理世界、操作复杂工具并完成现实任务的具身智能（Embodied AI）。随着视觉-语言-动作模型（VLA）的兴起，研究重点正从单纯的语义理解转向“感知-决策-执行”的闭环控制。然而，要训练出一个像人一样灵活的机器人大脑，面临着巨大的基础设施挑战：仿真数据的渴求：现实世界的训练成本高且危险，依赖大规模并行仿真环境可以显著降低数据成本（如 LIBERO、ManiSkill3）。计算效率的鸿沟：传统的强化学习（RL）框架在面对数十亿参数的视觉基座模型时，往往会出现“渲染等推理、推理等训练”的相互掣肘，导致硬件利用率低下。正是在这种具身智能急需工业级引擎的背景下，RLinf 应运而生。 2 RLinf介绍RLinf（Reinforcement Learning Infrastructure）是由清华大学、北京中关村学院、无问芯穹（Infi-AI）、北京大学与加州大学伯克利分校等顶尖科研机构及企业在 2025 年 9 月联合发布的。它是全球首个专门为具身智能（Embodied AI）设计的“渲染、训练、推理”一体化大规模强化学习框架，旨在解决具身智能训练中面临的硬件利用率低、系统灵活性差等痛点。RLinf本身是一个灵活且可扩展的开源基础架构，专为通过强化学习对基础模型进行后训练而设计。名称中的 "inf" 代表 Infrastructure（基础架构），强调其作为新一代训练强大支撑系统的角色；同时也代表 Infinite（无限），象征该系统支持开放式学习、持续泛化和智能发展的无限可能性。核心技术亮点1. M2Flow (Macro-to-Micro Flow) 架构：这是 RLinf 的核心“黑科技”。它通过宏观任务流与微观算子流的深度协同，打破了仿真渲染、模型推理与梯度训练之间的同步阻塞，实现了三者的极致并行。在同等硬件条件下，它能将具身任务的训练吞吐量提升数倍。2. 全场景仿真适配：RLinf 原生支持 LIBERO、IsaacLab、ManiSkill3 等主流具身智能仿真环境。通过高度抽象的接口，开发者可以像调用标准 Gym 环境一样轻松调动复杂的物理引擎。3. 支持前沿 VLA 架构：框架深度集成了包括 GRPO、PPO、DAPO 在内的多种强化学习算法，并支持 OpenPi、GR00T 等多种主流机器人基座模型的快速微调。 RLinf 将训练过程拆分为三个独立运行的算力集群（Actor Groups）：Env Group（环境采样组）：负责驱动物理引擎（如 LIBERO、MuJoCo）。它们执行模型动作，并“渲染”出下一帧的视觉观测（Observation）。Rollout Group（模型推理组）：专门负责将观测数据输入大模型（如 VLA 模型），计算出下一个动作（Action）。Training Group（策略优化组）：收集轨迹数据（Transitions），进行梯度计算并更新模型参数。 3 CloudRobo + RLinf RLinf社区已合入了我们发布的第一个昇腾NPU适配特性，成功在昇腾上支持了OpenPi模型使用LIBERO的强化学习。CloudRobo 平台已集成 RLinf 框架，并提供了预置配置模板。开发者无需从零搭建环境，即可快速启动强化学习训练任务。不同平台训练效果对比：在这一实验场景中，我们不仅完成了 Ascend NPU 上的端到端运行验证，还进一步对 NPU 与 GPU 的训练结果进行了对齐验证。在完全一致的实验设置下（包括模型、数据、算法参数以及并行配置），我们分别在GPU环境与Ascend NPU环境上对同一训练任务运行了几十步，并对关键训练指标进行对比。模型：[pi05](https://huggingface.co/RLinf/RLinf-Pi05-LIBERO-SFT)仿真基准测试集：[LIBERO](https://github.com/RLinf/LIBERO)算法：PPO硬件规模：4 die (4 x A100, 4 x Snt9b, 2 x Snt9b23)A100环境 Snt9b环境 Snt9b23环境对比结果表明：三个平台上的 success_once 收敛曲线高度一致，并都在第50步时成功率达到55%，提升符合预期；在RL训练过程中没有出现明显的数值偏移或稳定性差异，证明了在昇腾生态下的有效性。长稳实验效果测试：在这一实验中，为了验证RLinf在昇腾环境运行的稳定性与长期效果，我们在CloudRobo平台上进行了长稳实验。模型：[pi0](https://huggingface.co/RLinf/RLinf-Pi0-LIBERO-Spatial-Object-Goal-SFT)仿真基准测试集：[LIBERO](https://github.com/RLinf/LIBERO)算法：PPO硬件规模：2 die (2 x Snt9b) 实验结果：在800步左右训练后，success_once大幅提升，由初始的50%左右提升至90%，期间未出现异常中断，证明在昇腾环境下RLinf是稳定且有效的。 4 性能优化在实验过程中，我们发现了RL性能优化的可能性，可以通过提前触发重置环境函数的方式，在模型训练过程中同步完成下一轮的环境准备工作。如图所示：通过Bootstrap-Training Overlap (4 Env Workers)，任务global step时间下降了15%-20%，是可观的收益。该优化我们也已经贡献到RLinf社区，已被社区接纳合入。 5 总结我们取得的阶段性成果包括：开箱即用的昇腾支持，RLinf 框架已原生支持昇腾 NPU 后端，开发者无需额外适配即可在 CloudRobo 平台上直接运行强化学习训练任务。我们提供了预置的模型资产、仿真资产和配置模板，大幅降低了环境搭建门槛。在完全一致的实验配置下，昇腾 NPU 与 GPU 的训练收敛曲线高度一致，且在长稳实验中，证明了RLinf在CloudRobo平台上的稳定性和有效性。通过 Bootstrap-Training Overlap 优化性能，该优化已被社区接纳，惠及更广泛的开发者。未来，CloudRobo 具身开发平台将继续与开源强化学习框架 RLinf 深度合作，逐步上线具身场景更多的RL特性和能力，为开发者带来更高效、更易用的一站式具身智能开发体验。

具身智能小助手 发表于2026-05-25 19:36:55 2026-05-25 19:36:55 最后回复 yd_256337191 2026-06-30 14:34:58
827 6

EI智能体人工智能
[技术干货] 让 VLA 不只“看见后行动”：CC-VLA 用柔顺控制补上接触丰富操作的关键一环

近年来，Vision-Language-Action（VLA）模型正在成为机器人操作的重要路线。模型可以根据视觉观察和语言指令生成动作序列，完成抓取、放置、插入等任务。但当机器人真正进入接触丰富场景时，仅仅“看懂任务”和“预测动作”往往还不够。例如插头插入、按钮按压、擦白板、开窗这类任务，核心难点并不只是空间定位，而是机器人必须在接触过程中持续感知力、调节力、保持柔顺。一旦动作块执行过程中出现轻微偏差，就可能导致接触力过大、任务失败，甚至触发机器人保护停机。CC-VLA 的出发点正是：现有 VLA 虽然具备视觉语义理解和动作生成能力，但还缺少真正面向接触控制的力-位闭环能力。VLA 为什么需要“控制感知”？传统 VLA 通常采用 action chunk 的方式：模型低频预测一段动作，底层控制器按序执行。这种设计在非接触或弱接触任务中比较有效，但在强接触任务中会遇到明显问题。一方面，VLA 推理频率相对较低，动作块执行期间缺少足够快的反馈修正；另一方面，力/力矩传感器的变化往往发生在更高频率上，如果把高频力信号简单降采样或直接拼进输入，模型很容易错过真正关键的接触变化。同方向的 FAVLA 也指出，视觉相机和力/力矩传感器存在天然频率不匹配，低频 VLM + 开环动作块执行很难对接触力变化做出及时反应。更重要的是，力信号并不只是一个“额外输入模态”。在接触任务中，它同时扮演三种角色：第一，它是本体感知的一部分，帮助判断当前是否接触、是否卡住、是否滑移；第二，它是动作生成的约束信号，告诉模型下一步该更用力还是更柔顺；第三，它还应该成为控制目标，即模型不仅要预测“去哪里”，还要预测“施加多大力”。CC-VLA 明确把 force 既作为输入，也作为 action target，让 VLA 输出可以被柔顺控制器直接使用的 feedforward force。 CC-VLA：从“force-aware VLA”到“control-aware VLA” 过去一些工作已经尝试把力/力矩引入 VLA。比如 ForceVLA 使用 MoE 模块融合视觉语言特征和实时力信号，使动作预测具备一定接触感知能力；但 CC-VLA 认为，这类方法仍然主要停留在“力增强动作预测”层面，底层执行通常还是位置控制，难以实现精确的期望力跟踪和快速柔顺调整。论文也指出，ForceVLA 等方法虽然能生成基于交互力的 pose action chunk，但在稀疏观测下仍然难以实现准确的 desired force tracking 和 compliant force-position adjustment。因此，CC-VLA 的核心转向是：不再只让模型感知力，而是让模型服务于控制器。它构建了一个层级式 slow-fast 系统： Slow policy 是 control-aware VLA。它接收多视角图像、语言指令、本体状态、实时力和历史力序列，输出动作块，包括期望位姿、夹爪状态和期望力。Fast policy 是 VLA-guided adaptive compliance controller。它接收 VLA 输出的 desired pose 和 feedforward force，在更高频率下进行力-位柔顺控制，负责实时跟踪和安全执行。图 1 中也明确把 CC-VLA 拆成 slow policy 和 fast policy：前者做长时域力感知与动作预测，后者做高频反应式控制、力跟踪和柔顺执行。这也是 CC-VLA 与普通 VLA 最大的区别：普通 VLA 更像“视觉语言到动作”的映射，而 CCVLA 是“视觉语言力感知到控制目标，再由控制器执行”的系统。 CC-VLA 方法框架：三个关键模块 CC-VLA 的整体方法可以概括为三个核心部分：历史力序列编码器、MoE 融合与两阶段训练、自适应柔顺控制器。 1. Historical Force Sequence Encoder：让模型理解“力的过程” 单帧力信号只能告诉模型当前受力是多少，但接触任务真正重要的是力的动态变化：是否刚刚接触、是否丢失接触、力是否快速上升、是否出现峰值、是否进入稳定摩擦阶段。因此，CC-VLA 没有只使用实时 F/T，而是引入历史力序列。论文将历史 F/T 序列切成多个连续 patch，每个 patch 通过共享 MLP 编码局部时间模式，再加入时间位置编码。随后，一个 learnable force token 对这些力 patch 做 cross-attention，最终得到一个紧凑的历史力描述 token。这个 token 再和视觉、语言、状态 token 融合，用于动作和期望力预测。直观理解，这个模块相当于给 VLA 加了一个“接触状态摘要器”：它不要求模型从原始力曲线中盲目学习，而是显式把接触变化、力趋势和历史动态压缩成可用表征。 2. MoE-Based Fusion：力觉不是主干，而是修正分支视觉和力信号的性质差异非常大。视觉 token 信息密度高、语义强，力信号稀疏、噪声大、时序性强。如果一开始就把力和视觉语言特征端到端混合训练，很容易出现两类问题：模型过度依赖视觉，忽视力信号；或者力噪声干扰视觉语义和空间理解。CC-VLA 采用了更稳妥的方式：先让 VLA backbone 学好视觉、语言和动作空间对齐，再引入力觉 MoE 分支作为 residual correction。这种设计的关键在于：力觉分支不是替代视觉策略，而是在视觉策略基础上做接触修正。 3. Multi-Stage Training：先学空间，再学接触 CC-VLA 的训练分为两个阶段。第一阶段，微调 base model，主要对齐视觉、语言、本体状态和动作空间，让模型先具备稳定的通用操作能力。第二阶段，引入 cross-model fusion expert，将 F/T 数据与视觉语言 embedding 通过稀疏 MoE 融合，让模型学习用细粒度接触动态去调制已有动作轨迹。论文强调，这种分阶段训练可以避免多模态竞争，让力觉调整作为视觉策略的 refinement，从而提升接触任务中的稳定性。CC-VLA 并不是把所有模态从头硬塞进一个大模型，而是把力模态放在更接近控制目标的位置，让它在后阶段负责“纠偏”。自适应柔顺控制器：VLA 负责“想怎么做”，控制器负责“安全地做” CC-VLA 最重要的部分其实不是 MoE，而是它把 VLA 和 compliance controller 连接了起来。 VLA 输出 action chunk 后，系统会通过 asynchronous action trajectory layer 把离散动作插值成更高频的连续期望命令。随后，adaptive compliance controller 根据 VLA 预测的 desired pose 和 feedforward force，结合实时测得的外力，动态调整刚度和阻尼。论文没有采用复杂 QP 去每一步求最优刚度，而是设计了受 Resilient Propagation 启发的启发式刚度更新规则：根据力跟踪误差变化调整刚度，再经过低通滤波、刚度上下界投影和稳定性约束，避免学习模型输出抖动导致控制不稳定。这部分的意义是：即使 VLA 因为感知误差预测了一个可能导致危险接触的位姿，底层控制器仍然可以通过柔顺机制限制过大接触力，从系统层面提升安全性。同方向的 CompliantVLA-adaptor 也强调，现有 VLA 通常输出位置命令，但缺少 force-aware adaptation，容易在接触、柔顺和不确定环境中失败；该类工作普遍试图用可变阻抗控制把高层语义理解和底层安全接触连接起来。数据采集：让遥操作环境“等效变软” 接触丰富任务的数据采集本身就很难。使用 3D mouse、gamepad 等非力反馈设备遥操作位置控制机器人时，操作者很容易因为一点点位置误差造成过大接触力，机器人随即保护停机。为了解决这个问题，CC-VLA 设计了 shared teleoperation data acquisition。它通过 compensated virtual impedance，把真实环境在控制层面“等效变软”。直观上，对于同样大小的交互力，更软的环境允许更大的接触位移，因此操作者更容易采集到稳定、安全、带有高质量力信号的示教数据。这点对 force-aware VLA 很关键，因为模型不只是需要轨迹，还需要稳定、时间一致、可学习的力变化模式。实验：在按压、插入、开窗、擦拭任务上验证论文在四类真实机器人接触任务上评估 CC-VLA：按急停按钮、插入充电插头、打开旋转窗、恒力擦白板。实验硬件包括 UR5e 机械臂、腕部 RealSense D435、侧视 RealSense D455、UMIlike gripper 和 6-DoF 力/力矩传感器。训练时每个任务使用两张 A100，测试时使用一张 RTX 4070。对比方法包括 Diffusion Policy、π0、π0 w/ Force、π0.5 和 ForceVLA。结果显示，CC-VLA 在六个测试设置上的平均成功率达到 89.2%，明显高于 DP 的 31.3%、π0 的 47.3%、π0.5 的 44.7%、π0 w/ Force 的 60.2% 和 ForceVLA 的 73.2%。在最能体现力控能力的擦白板任务中，示教目标法向力为 40N。CC-VLA 是唯一能够稳定追踪 40N 期望力的方法。WP-Base 中，CC-VLA 的力跟踪误差为 5.52%，ForceVLA 为 35.57%，π0 w/ Force 为 28.10%；WP-OOD 中，CC-VLA 的误差为 8.78%，ForceVLA 为 52.33%。当瞬时接触力超过 75N 时，机器人会触发保护停机，这也解释了为什么 π0 和 π0.5 在部分擦拭实验中无法稳定完成任务。消融实验：历史力、两阶段训练、柔顺控制都很关键消融结果进一步说明，CC-VLA 的提升不是单一模块带来的。在按按钮任务中，CC-VLA 相比 ForceVLA 在夹爪尖端对准按钮顶点方面提升 12%，并将 falsepressing pose rate 从 28% 降低到 8%，说明两阶段训练确实更好地保留了空间感知能力。在 PI-Pro 插头近距离起始任务中，加入历史力序列编码器后，成功率从 72% 提升到 92%，说明历史力信息能帮助模型进行细粒度接触状态估计。在擦白板任务中，可变刚度和 VLA-guided adaptive compliance controller 显著降低了力跟踪误差，说明底层控制器并不是简单附属模块，而是 CC-VLA 能稳定完成接触任务的核心组成部分。为什么这项工作重要？ CC-VLA 的意义不只是提出了一个新的 force-aware VLA，而是重新定义了 VLA 在接触丰富任务中的角色。过去，VLA 往往被看作一个端到端动作生成器：输入图像和语言，输出动作。但接触任务要求机器人同时具备语义理解、空间定位、力感知、柔顺控制和高频安全响应。CC-VLA 的设计说明，真正可落地的物理智能系统可能不应该把所有事情都交给一个慢速大模型，而应该把任务分成两个时间尺度：高层 VLA 负责语义、阶段、动作目标和期望力；低层控制器负责实时力位执行与安全约束。这也和 ForceVLA2、 UMI-FT等近期工作形成了共同趋势：接触丰富操作不能只靠位置动作预测，VLA 必须显式考虑力、控制频率和底层执行机制。ForceVLA2 也强调，真实接触任务长期依赖位置控制，显式力感知与力调节仍然不足，这会限制稳定性、精度和鲁棒性。整个模型开发与验证流程都是基于华为云cloudrobo平台，cloudrobo平台承担模型验证或工程化落地的基础设施角色，覆盖数据服务、模型训练、仿真验证和推理部署等全流程能力，CC VLA 可以作为平台中的接触丰富操作专项模型，为插装、擦拭、按压、开窗、装配等任务提供力感知动作预测与柔顺控制能力；对开发者来说，这种结合可以把CC-VLA的模型能力沉淀为可复用技能：一方面借助平台完成多模态示教数据管理、模型微调、仿真测试和云边协同部署，另一方面通过 CC-VLA 的期望力预测与自适应柔顺控制，降低接触任务的调试门槛，提升模型上线时的安全性、稳定性和任务成功率。结语 CC-VLA 的关键贡献可以概括为一句话：让 VLA 从“force-aware action predictor”走向“controlaware compliance policy”。它通过历史力序列编码器解决接触状态感知问题，通过 MoE 和两阶段训练解决视觉-语言-力模态融合问题，通过 VLA-guided adaptive compliance controller 解决低频 VLA 与高频接触控制之间的断层。对于 VLA + 力/触觉方向，这篇工作的启发很明确：未来机器人模型不能只预测动作轨迹，还应该预测可被控制器执行的物理目标，例如期望力、刚度、阻尼、接触阶段或 compliance policy。真正有用的 VLA，不仅要知道“下一步去哪”，还要知道“以多大力、用多软的方式、如何安全地接触世界”。

具身智能小助手 发表于2026-05-25 19:27:11 2026-05-25 19:27:11 最后回复具身智能小助手 0
294 0

EI智能体人工智能
[技术干货] HyperSim：少量真实数据驱动 Sim-to-Real 高效迁移

机器人操作领域并不缺少仿真数据，关键问题在于仿真数据是否具备向真实世界迁移的有效性。如果仿真场景过于理想化、轨迹仅覆盖标准成功路径，且训练过程缺少跨域对齐机制，策略就可能在仿真环境中表现良好，但在真实环境中出现抓取成功率低、扰动后恢复能力弱、复杂背景下感知失效等问题。来自华为云 CloudRobo 团队的最新研究《HyperSim: A Holistic Sim-To-Real Framework For Robust Robotic Manipulation》对上述问题提供了新的解法。该工作的核心贡献并非单一模块的改进，而是将高保真环境构建、对抗式轨迹生成、与仿真-真实协同训练整合为完整技术链路，从而提升仿真训练策略向真实部署场景迁移的稳定性。其中，高保真环境用于降低视觉域差异，对抗式轨迹用于扩展状态-动作分布覆盖范围，混合训练则用于提升跨域表征学习能力。视觉保真：通过真实场景重建获取背景信息，提升仿真观测与真实部署观测之间的视觉一致性。数据覆盖：在轨迹生成过程中扰动目标物体状态，让训练数据覆盖执行过程中的不确定性域间对齐：结合大规模仿真数据与少量真实示教数据，学习更稳定的跨域特征表示高保真环境：缩小视觉域差异传统仿真通过“桌面 + 物体 + 简化背景”的方式降低环境建模的复杂度。这种设置虽然有利于快速的场景生成，但也会引入与真实环境之间的差异。HyperSim 将场景表示拆分为两部分：• 前景操作区：基于约束优化的方法，产生布局合理、物理可交互的操作区域。 • 背景环境：通过带几何先验的 Gaussian Splatting 做高保真重建，Gaussian 表征用于渲染，与其严格对齐的 Mesh 则保证几何精确。这种设计使前景操作区能够保持合理稳定的物理交互，同时通过背景重建提升视觉观测与真实环境的一致性。对抗式轨迹生成：从执行标准路径扩展到扰动恢复能力传统的轨迹数据集通常只包括任务一次执行成功的轨迹，而真实机器人经常遇到难以在操作过程中对准目标物体的问题，这细微的偏差进一步导致任务执行失败。为了解决这一问题，HyperSim将任务拆分为接近阶段与交互阶段，并在关键的 bottleneck pose 附近对目标物体的位置和姿态施加微小扰动，使产生的轨迹中模拟重新对准目标物体、以及从失败中恢复执行的现象。对抗式轨迹生成将上述“失败恢复”过程显式纳入训练数据。模型学习的不再仅是标准执行动作，还包括面对偏差和动态变化时的调整和恢复能力。真实环境验证：复杂任务、细粒度评估文本采用工业分拣任务验证数据质量和模型性能。与简单的桌面抓取任务相比，机器人需要将目标物体（红色航插）从中间的胶框中取出并放置到旁侧的胶框中，在此过程中非常容易与胶框发生碰撞，因此对于机械臂的抓取位姿、与目标物体的对准度等有更高要求。论文使用了三项细粒度的指标来评估模型能力： • TAR：是否成功对齐到 bottleneck pose • SR1：是否一次连续尝试就完成任务 • SR3：最多允许三次尝试时的整体成功率 HyperSim 的评测设计避免了仅依赖最终成功率所带来的评估不全面的问题。机械臂达到bottleneck 位姿后动作失败，与从初始阶段就无法完成与目标物体的对齐，反映的是不同类型的能力缺陷。实验结果: 高保真环境、扩展数据分布与少量真实示教轨迹的协同增益相较于仅停留在仿真验证的研究，HyperSim在 ACT 与 π0 两类策略上累计进行了 400 余次的真实世界试验。论文中的几个核心结果值得关注： • 在 zero-shot 设置下，完整高保真方案让π0 的 SR3达到了 75%。 • 在 few-shot 设置下，只加入 35 条真实示范，完整 HyperSim 管线让 ACT 的 SR3 达到 80%、π0 的 SR3 达到 95%。 • 在动态扰动测试中，使用对抗式轨迹训练后，SR1 从 25% 提升到 60%，鲁棒性提升约 35 个百分点。这些结果共同表明，高质量仿真数据并非用于完全替代真实数据，而是能够在少量真实示教数据的配合下，显著提升真实训练信号的利用效率。总结 HyperSim 的重要性不仅在于提出了一个新的技术框架，更在于将三个长期被分散处理的问题纳入统一方案：如何使仿真场景更接近真实环境，如何让训练数据覆盖执行过程中的不确定性，以及如何在极少真实数据条件下学习更稳定的跨域能力。从更宏观的技术趋势来看，该工作体现了具身智能训练范式的一次重要转向：从强调数据规模转向强调数据有效性，从依赖理想成功示教转向构建包含失败恢复过程的数据分布，从单点式 sim-to-real 技巧转向系统化全链路设计。

具身智能小助手 发表于2026-05-25 18:46:29 2026-05-25 18:46:29 最后回复具身智能小助手 0
258 0

EI智能体人工智能
[技术干货] 具身智能小脑模型能力介绍

一、基本信息本文共计：1800+字，阅读时长：9~15分钟。本文将拆解具身智能领域的模型能力体系，清晰界定各层级、各类型模型的核心能力、功能边界，全面呈现各类模型如何协同支撑，具身智能体在复杂物理世界中完成自主决策与高效行动。二、小脑层模型：具身智能的运动中枢，承载轨迹规划与实时执行小脑层是具身智能体的运动执行核心，核心定位为：承接大脑层下发的抽象任务意图与决策指令，将高层语义指令转化为可落地的具体运动行为。专注于运动轨迹生成、全身姿态协调、平衡稳定控制、动作序列编排、实时传感反馈调节，介于大脑高层认知与机器人本体底层硬件驱动之间。（一）视觉语言动作模型（VLA）：端到端动作生成核心载体核心能力：视觉感知 + 语言指令直接映射为连续运动动作，打通感知、语言到动作的全链路，支持物体抓取、室内行走、灵巧操作等多类任务的零样本泛化，大幅简化传统分模块开发链路，是当前具身动作生成的主流技术方向。经典模型：以 RT-1、RT-2、RoboCat 为代表，可在简单结构化场景中，根据语言指令直接输出机械臂抓取、定点移动等基础动作轨迹与关节控制指令。前沿模型：OpenVLA、RT-2X、TraceVLA、人形专用 VLA，显著提升动作生成精度、复杂场景泛化能力与多动作协同能力；可适配复杂灵巧操作、人形上下楼梯、负重行走等高难度全身运动，兼容动态环境实时动作微调，同时具备跨机型、跨场景动作技能迁移能力。（二）强化学习（RL）运动控制模型：环境自适应的自主技能学习工具核心能力：通过与环境交互试错，自主习得步态、抓取、避障、轨迹跟随等运动技能，无需依赖精准人工规则，可自适应环境变化、机器人本体参数漂移等不确定因素，提升运动控制鲁棒性。其学习逻辑类比人类反复试错校准动作，是机器人自主进化、自主适配未知环境的关键技术。经典算法与模型：PPO、SAC、TD3、DDPG，广泛应用于机械臂无序抓取、轮式机器人避障、双足机器人基础步态学习等场景，可通过持续环境交互自主优化运动策略。前沿方向：以离线具身 RL、世界模型增强 RL、人形全身协同 RL为代表，解决传统在线 RL 样本效率低、真机训练风险高、成本大的痛点，结合世界模型虚拟预判能力做仿真试错，再迁移到真机落地，大幅提升训练效率。（三）模仿学习（IL）模型：从人类演示快速复刻作业技能核心能力：从人类操作演示数据中学习动作范式，快速复刻复杂作业技能与运动步态，无需大量试错训练即可落地应用，显著降低机器人技能开发周期与数据成本，适配工业装配、家政服务、专用操作等快速落地场景。经典主流类别：包含行为克隆 BC、DAgger 迭代模仿、生成式模仿学习。经典主流方案以 BC、DAgger、GAIL 为代表，可基于人类演示视频或轨迹数据，复刻标准抓取、装配、固定行走等标准化动作序列。前沿模型：多模态演示模仿、小样本具身模仿学习，可融合视频、语言解说、力控信号多维度演示数据，动作复刻更贴合人类操作习惯；仅需少量演示样本即可泛化到同类相似场景，适配个性化、小批量作业技能快速部署。（四）全身运动规划与控制模型：人形机器人平衡与轨迹协调调节器核心能力：人形机器人全身姿态平衡控制、运动轨迹平滑优化、多关节协同调度、复杂地形动态步态生成，保障机器人在行走、转弯、上下台阶、负重站立等工况下姿态稳定，同时优化运动轨迹平顺性与能耗效率，是人形机器人落地的核心底层控制支撑。经典技术体系：包含全身控制 WBC、模型预测控制 MPC、零力矩点 ZMP 三大经典技术体系，配套 LQR、PID 等基础控制算法。经典方案依托 ZMP 实现双足行走平衡判定，通过 WBC 做多关节力矩协同分配，借助 MPC 完成前瞻轨迹优化，广泛应用于人形步态、机械臂轨迹规划等场景。前沿方向：为深度学习增强 WBC、端到端步态规划模型，利用数据驱动模型补偿传统控制的建模误差，适配凹凸路面、斜坡、台阶等非结构化复杂地形，可实时动态调整步长、重心与关节姿态，实现更自然、更灵活的类人运动效果。（五）灵巧操作 / 抓取规划模型：精密作业与无序抓取执行工具核心能力：无序场景目标检测、6DoF 抓取位姿估计、多指灵巧手协同操作规划，支持不同形状、不同材质、易碎易变形物体的自适应抓取与精细操作，是工业分拣、家政整理、精密装配等场景的必备能力。经典模型：以 GraspNet、通用 6DoF 抓取网络为代表，适用于结构化固定场景规则物体的抓取位姿检测与轨迹规划。前沿模型：融入大模型语义引导抓取、通用灵巧手动作生成能力，可根据物体材质、易碎属性、尺寸特征智能调整抓取姿态与夹持力度，实现柔顺安全抓取，同时支持多指协同完成捏取、旋拧、夹取等精细化复杂操作。

具身智能小助手 发表于2026-05-25 14:31:15 2026-05-25 14:31:15 最后回复具身智能小助手 0
80 0

EI智能体人工智能机器人深度学习机器学习
[技术干货] 具身智能大脑模型能力介绍

一、基本信息本文共计：1600+字，阅读时长：8~14分钟。本文将拆解具身智能领域的模型能力体系，清晰界定各层级、各类型模型的核心能力、功能边界，全面呈现各类模型如何协同支撑，具身智能体在复杂物理世界中完成自主决策与高效行动。二、大脑层模型：具身智能的认知中枢，承载高层决策与场景理解大脑层是具身智能体的认知决策核心，核心定位为：负责高层语义理解、环境认知、逻辑推理、全局任务规划与自然语言指令拆解，不直接参与底层运动控制、关节驱动与实时动作执行。类比人类大脑，核心职能是看懂环境、听懂指令、逻辑思考、拆解复杂任务，为整机系统输出全局决策方向与任务逻辑。（一）大语言模型（LLM）：具身智能的任务推理引擎核心能力：涵盖人机自然语言交互、复杂长任务拆解、逻辑常识推理、多轮决策编排，可将人类生活化自然语言指令，转化为机器人可执行的结构化任务逻辑，同时应对开放场景的不确定性决策需求。从应用形态可分为通用基础大模型与具身专用微调大模型两大类别：经典模型：包括 LLaMA 系列、Qwen 系列、Vicuna、GPT-4o、Claude 等，具备极强的通用语言理解与逻辑推理能力，可完成多轮对话交互、子任务拆分、常识逻辑判断等基础认知工作，为具身智能提供通用知识与推理框架。前沿模型：以Embodied-LLM、具身专用微调 LLM、机器人端侧小参数量 LLM为代表，在通用大模型基座基础上，注入物理环境常识、机器人任务逻辑、空间交互规则等具身专属知识，强化复杂任务拆解的落地性与环境适配性，实现自然语言指令→任务逻辑→动作意图的平滑转换，弥补通用大模型在物理具身场景泛化不足的短板。（二）视觉语言多模态模型（VLM）：场景语义理解的感知桥梁核心能力：视觉信息与语言语义跨模态融合对齐，实现复杂场景语义理解、开放词汇目标识别、环境场景语义标注，向上承接语言指令、向下输出结构化环境语义特征，搭建起视觉感知 — 语言理解 — 决策规划的关键桥梁。经典模型：包含 CLIP、FLAVA、ALIGN、Florence、BLIP 等，擅长实现图像与文本的双向匹配检索、通用物体与基础场景识别，可完成日常物体区分、基础空间语义理解，例如辨识杯子、餐具，理解 “桌子旁、沙发边” 等空间方位语义。前沿模型：以 EmbodiedGPT、Pelican-VL、轻量化具身专用 VLM、世界表征型 VLM 为代表，针对性强化动态复杂场景适配能力，可结合时序上下文完成场景语义推理；同时做端侧轻量化优化，适配机器人嵌入式部署需求，可自动识别厨房、客厅等专属场景，并理解对应场景下的作业意图。（三）世界模型（World Model）：物理环境交互的预判中枢核心能力：学习真实世界物理运行规律，完成环境时空状态建模、未来场景时序预测、无交互虚拟推演与环境先验建模；可提前预判动态障碍物运动轨迹、自身动作带来的环境变化，为大脑高层决策提供物理规律依据，提升决策合理性与环境鲁棒性，是衔接大脑认知与小脑运动控制的关键中间层。技术架构：递归状态空间世界模型、Transformer 时空世界模型、JEPA 联合嵌入表征世界模型。经典主流以 Dreamer 系列（RSSM 递归状态架构）为典型，通过递归状态建模环境动态变化，实现短时序未来场景预测，预判物体运动、行人移动等基础动态行为。前沿模型：包括 Meta JEPA、Google Genie、ST-Transformer、具身专用时序世界模型，大幅提升长时序预测精度与复杂场景适配能力，支持多物体交互、光照变化、地形变化等复杂物理场景建模。（四）视觉语言导航基础模型（VLN）：语言驱动的空间决策向导核心能力：自然语言指令到空间导航意图的转化，可理解 “直行、左转、绕行障碍物、前往指定点位” 等语义化导航指令，输出语义级空间路径意图，为导航规划提供高层语义指引，是大脑层负责空间认知与导航决策的专用模型。经典模型：以 Room-to-Room、REVERIE 为代表，主要适配室内结构化场景，可根据简单语言指令完成基础路径意图拆解与点位导航规划。前沿模型：包含 MobileVLA、LM-Nav 大模型导航分支，融合大模型深度语义理解与空间几何建模能力，适配室内外混合复杂场景，可解析长句、复杂约束类导航指令，同时支持动态环境下实时路径意图调整，导航泛化性与鲁棒性显著提升。

具身智能小助手 发表于2026-05-25 14:24:22 2026-05-25 14:24:22 最后回复具身智能小助手 0
95 0

EI智能体人工智能机器人自然语言处理机器学习
[技术干货] 具身数采的主流路径，已经逐渐收敛...

一、基本信息本文共计：1400+字，阅读时长：4~8分钟。本文主要介绍在具身智能领域下，具身智能数据采集的常见方式及相关介绍，通过对本文的阅读学习，能够帮助读者更全面、清晰的，了解到当下具身数采的相关知识。二、具身数据特征具身数据不同于传统视觉数据集或语音语料数据，它是具身机器人与环境交互过程中产生的全状态时空序列数据，是具身机器人在真实物理世界稳定运行的核心基础。其具备以下常见的典型特征：1. 多模态耦合：视觉、深度、力觉、触觉、关节位置、力矩、本体姿态等多维度信息高度绑定、协同互补，而并非简单叠加，可解决单一模态数据的局限性，为机器人精准决策提供支撑；2. 物理闭环：机器人动作与环境物理交互形成“动作输出—反馈采集—动作调整”的完整闭环，包含接触、碰撞、滑移、夹持力、物体形变等真实物理反馈；3. 长时序连续：从原子操作到复杂任务，数据采集保持时间连续、状态完整，支撑模型学习完整任务逻辑与动作关联，是具身机器人实现复杂任务自主执行的前提；4. 强对齐性：所有传感器必须在统一时空坐标系下严格同步，是多模态数据协同作用、模型准确理解交互关系的基础。可以说，没有高质量具身数据，再强大的模型架构也难以在真实物理世界中稳定运行。5. 噪声固有性：具身数据在采集过程中，受传感器、环境、交互随机性影响，会天然包含噪声，这种噪声固有性并非缺陷，反而使得具身数据更贴近真实物理世界的状态，可帮助模型提升抗干扰能力。三、具身数采路线当前行业形成了四条相对成熟、互补共存的数据采集技术路线，分别是：真机遥操作采集、人类动作捕捉采集、仿真合成数据、互联网视频与弱监督学习，各自在精度、成本、效率上存在显著差异。数据采集方式核心原理子类型&代表方案优势点劣势点场景匹配真机遥操作采集（Teleoperation）通过穿戴/手持设备，遥控机器人本体，同步记录机器人全状态交互数据同构遥操：人形/灵巧手操控同款机器人穿戴式外骨骼：全身/手部力反馈手套数据精度最高，含关节位姿、力矩、力触觉、6DoF、视觉全模态可直接落地，同机型零迁移训练成本高、效率低强绑定机器人本体，跨机型复用率低适合高精度工业装配、医疗操作、精密组装，以及机型量产前最终微调无本体便携采集通过普通人用手机 + 低成本夹爪 / 动捕设备，在真实场景中采集，无需机器人本体手持 UMI：通用夹爪+第一视角相机/手机+机械连杆轻量、成本极低、场景无限、规模化最快缺乏力觉 / 触觉、精度中等、数据质量参差。适合居家家务、办公桌面、商超零售、等碎片化、生活化强的场景人类动作捕捉（Motion Capture）采集真人自然操作数据，再映射到机器人关节空间光学动捕：红外相机阵列光惯融合：IMU+视觉穿戴式感知手套：角度编码器+触觉阵列动作自然、覆盖长尾场景轻量、采集场景多样缺失力 / 触觉、物理交互信息人体与机器人之间存在映射畸变适合家庭服务、商超物流、日常操作，以及通用技能预训练仿真合成数据（Sim-to-Real）在虚拟引擎中生成海量机器人交互数据仿真平台：cloudrobo、NVIDIA Isaac、Unity、Gazebo、智元 AGIBotWorld零边际成本、可规模化至百万小时级环境可控、全状态可观测物理精度不足（柔性、摩擦、碰撞），存在Sim-to-Real Gap 真实环境泛化性差适合策略预热、环境探索、危险 / 极端场景训练，不适合最终落地验证互联网视频与弱监督学习从海量人类操作视频中反解动作、意图与语义知识公开视频数据集、网络教学视频爬取近乎零成本、场景极度丰富无力觉、精确时序、轨迹标签数据噪声大、利用率低适合语义理解、常识学习、提升泛化能力，无法用于底层控制

具身智能小助手 发表于2026-05-25 14:18:08 2026-05-25 14:18:08 最后回复具身智能小助手 0
63 0

智能硬件 EI智能体人工智能机器人数据采集
[技术干货] 常被提及的具身智能数据，究竟指的是什么？

一、基本信息本文共计：1600+字，阅读时长：5~9分钟。本文主要介绍在具身智能领域下，具身数据的常见分类、数据瓶颈及相关介绍，通过对本文的阅读学习，能够帮助读者更全面、清晰的，了解到当下具身数据的相关知识。二、具身数据具身智能是一个感知-决策-执行-反馈-迭代的闭环数据流系统，从单机器人实验到规模化部署，数据流的完整性、实时性、标准化，直接决定智能体能否真实落地、泛化以及持续进化。具身智能所需要的数据，不是简单的“文本+图片+视频+动作”组合，它更需要的是全维度的、多模态的、时空对齐的、真实反馈的复杂信息集合，涵盖了视觉、听觉、触觉、动作、环境交互等多个维度。按照数据的来源与真实性，可以分为两大类：真实物理世界的交互数据、虚拟仿真环境的模拟数据。从感知多模态的角度，还可以细分为五类核心数据。简单类比人类婴儿的探索学习期，即为：眼睛看（视觉）、耳朵听（听觉）、手指触（触觉）、肢体动（力觉）、头脑思（记忆）的全链路覆盖。数据维度数据定位类比硬件设备数据内容数据作用真实物理数据视觉感知数据智能体的“眼睛”，环境感知基础眼睛摄像头、激光雷达、深度相机等RGB图像、深度视频、3D点云、第一人称视角画面等识别物体位置、大小、判断距离、理解场景布局本体状态数据智能体的“身体感知”，自我状态监控肢体惯性传感器、编码器关节角度、电机电流、速度、力矩、位置坐标控制动作精准度，防止摔倒/碰撞触觉/力觉数据智能体的“皮肤”，精细交互核心皮肤电子皮肤、触觉传感器压力、滑觉、摩擦力、六维力反馈决定精细操作能力，是通用机器人关键动作轨迹数据智能体的“行为记忆”，任务执行路径小脑动捕设备、遥操设备遥操作示教、动捕采集的完整运动轨迹复刻人类操作，快速学习复杂任务语音/文本指令数据智能体的“耳朵”，人机交互入口耳朵麦克风语音命令、任务描述、语义标签增强交互自然，适配日常场景虚拟仿真数据合成视觉/场景数据低成本预训练素材，补充真实数据不足模拟器/虚拟环境渲染图像、极端场景（暴雨/黑暗）合成画面扩充数据集，训练鲁棒性仿真动作/交互数据大规模基础能力训练“题库”模拟练习/虚拟机器人抓取、搬运、避障的模拟数据快速试错，优化运动算法互联网视频迁移数据低成本行为参考库学习教程/人类日常操作视频、开源动作数据集学习人类行为模式，降低采集成本三、数据瓶颈 1.异构本体导致数据孤岛，使得跨本体复用性差不同构型的机器人（轮式、人形、四足），其传感器布局、关节自由度、控制接口等硬件差异显著。使得采集的数据好似自带“本体烙印”，难以跨本体迁移和复用，这直接构成了数据共享与复用的巨大障碍。2.数据采集环节的成本高昂真机数据是高质量训练的数据基石，但总量远不及数字世界。具身智能所需要的数百PB级物理交互数据，存在巨大的数据缺口。在此背景下，真机数据采集的成本反而高居不下。赛迪智库分析报告指出，当下单台设备产生1万小时训练数据，甚至需要消耗上百万元。同时，人员成本也居高不下，一个数采员一天只能采集300~500条数据，面对复杂任务时产出更低。3.Sim2Real的鸿沟显著，仿真数据迁移受限物理引擎无法精准模拟接触、摩擦、柔性物体的形变等真实特性，仿真数据与现实环境之间存在GAP，限制了模型迁移效果。训练模型在真实场景性能衰减明显，仿真数据的泛化能力有限，难以覆盖非结构化、动态开放环境，出现“最后一公里”的落地难题。4.数据质量与评估体系的缺失，使得规模化落地困难数据质量（信噪比、时空对齐精度、因果链完整性）参差不齐，缺乏标准化评估指标与认证体系。无论是数据采集的格式、标注的标准、评测框架，还是数据质量的评估，都缺乏统一的标准。使得不同模型结果难以横向对比，阻碍技术迭代与规划化应用。5.隐私与安全风险突出，合规问题暴露多模态数据采集过程中，极易过度收集人脸、声纹等敏感信息，时空关联后可构建出精细的个人画像，对个人隐私的泄露造成巨大的风险。同时，在公共场所运行数据采集时，造成对第三方数据的无意采集，也容易产生不可预见的风险。

具身智能小助手 发表于2026-05-25 14:12:51 2026-05-25 14:12:51 最后回复具身智能小助手 0
57 0

智能硬件 EI智能体人工智能机器人数据采集
[优秀实践] 具身智能进阶书籍-阅读推荐

本文共计：3300+字，阅读时长：14~18分钟。一、前言：阅读定位与核心价值本文聚焦具身智能进阶攻坚阶段两本核心书目：《具身智能原理与实践》《具身智能数据工程：标准、技术与实践指南》。面向已完成3本入门书籍（《具身智能》刘云浩版、《具身智能：从理论到实践》、《具身智能导论》）学习，具备具身智能基础认知、理论体系和基础技术应用能力的读者，为入门后的进阶学习提供清晰指引。核心定位：适配从“入门开发者”向“进阶开发者”转型的学习者，遵循“先夯实底层原理与核心技术→再补齐数据工程短板”的进阶逻辑，两本书各有侧重、相互支撑，形成“原理攻坚+数据落地”的完整进阶知识闭环，帮助学习者突破入门瓶颈，掌握具身智能核心技术与工程落地能力，为后续项目开发、技术深耕奠定坚实基础。阅读顺序：《具身智能原理与实践》→《具身智能数据工程：标准、技术与实践指南》二、核心书籍阅读推荐与内容详解（一）第一本：《具身智能原理与实践》作者：林倞、张瑞茂、吴贺丰 | 出版社：电子工业出版社 | 出版时间：2024.121. 阅读推荐（适配性+优先级）优先级：★★★★★（进阶攻坚必看、技术内核核心书目）适配人群：已读完入门三本读物，具备具身智能基础概念、机器人基础、基础技术应用能力；想要深入拆解具身智能感知-决策-控制全链路底层原理的个人开发者；希望掌握三维视觉、NeRF、具身强化学习、大模型具身赋能、多智能体协同的进阶开发者；需要依托仿真平台做算法复现、项目自研的独立开发者；想往具身算法、机器人自主规划方向深耕的技术学习者。推荐理由：2025年全新出版，紧跟VLA大模型、三维具身、仿真训练等行业前沿；由IEEE Fellow（中山大学）权威专家编写，理论严谨、体系完整，具备极高的技术权威性；区别于入门书的浅度科普，直击底层原理+工程实践双维度，既讲“为什么”，又讲“怎么做”；不堆砌冗余复杂公式，侧重原理拆解、算法逻辑、平台实操，兼顾专业性与可读性；适配个人开发者无团队、无高端硬件的自学场景，依托通用仿真环境即可复现书中案例，是从入门走向专业研发的关键过渡书籍，完美承接入门阶段知识。2. 书籍内容介绍本书以8章完整系统化章节架构，自上而下拆解具身智能完整技术栈，打通大模型、三维视觉、强化学习、机器人控制、仿真部署之间的关联，兼顾原理溯源与工程落地实操，帮助个人开发者建立专业级具身智能技术体系，突破入门阶段的技术瓶颈，实现技术能力的进阶升级。核心章节与重点内容：● 基础进阶篇：升级具身智能底层范式，对比传统AI与具身AI的核心差异，详解脑-身-环境交互机理、大模型赋能具身智能的底层逻辑、VLA（视觉语言动作模型）基础架构，衔接入门阶段的核心知识点并做深度拔高，为后续技术攻坚奠定坚实基础。● 核心技术原理篇：本书核心章节，详细拆解六大核心技术模块——三维视觉（NeRF技术，重点讲解场景重建、实时渲染的原理与实操）、具身强化学习（具身场景下的强化学习算法设计、训练技巧，解决环境交互中的决策问题）、复杂场景SLAM（进阶版即时定位与地图构建，适配复杂动态场景）、机器人路径规划与避障（高阶算法设计，提升复杂环境下的导航稳定性）、多模态感知融合（视觉、雷达、IMU等多传感器数据融合逻辑与实操）、大模型具身赋能（VLA模型微调、提示词工程进阶），每个技术点均搭配底层原理解析、公式简化解读（避免过度复杂）和实操步骤，让个人开发者能吃透原理、学会应用。● 仿真与平台实践篇：基于英伟达仿真生态，详细讲解仿真环境搭建、虚拟场景构建、智能体训练闭环、模型微调与验证的完整流程，解决个人开发者缺少实体机器人硬件的学习痛点，提供低成本的实操方案，让开发者无需真机即可完成算法复现与项目验证。● 多智能体与落地篇：讲解多具身智能体协同机制、任务分配、交互决策逻辑，配套工业、家用服务机器人典型实战案例，给出技术选型、方案设计、代码落地的完整思路，帮助个人开发者将所学技术转化为实际项目能力，实现从理论到工程落地的跨越。核心亮点：技术体系完整、深度适中不晦涩，兼顾学术原理与工程落地，避免“纯理论难落地”“纯实操无深度”的问题；把零散的具身知识点串联成完整技术链路，帮助开发者建立系统化认知；仿真实操友好，适配个人开发者独立学习场景，无需高端硬件即可上手；内容前沿，覆盖当前具身智能核心技术热点，帮助开发者紧跟行业趋势，为后续数据工程、项目自研打下坚实的算法根基。（二）第二本：《具身智能数据工程：标准、技术与实践指南》作者：夏轩、俞波、刘少山 | 出版社：人民邮电出版社 | 出版时间：2025.71. 阅读推荐（适配性+优先级）优先级：★★★★★（进阶工程必看、数据体系标杆书目）适配人群：已经掌握具身智能算法原理，卡在数据稀缺、数据集难构建、真实仿真数据割裂问题上的个人开发者；想要学习多模态数据采集、清洗、标注、对齐、Sim2Real迁移的工程型开发者；计划自建具身数据集、做小模型微调、定制化具身任务开发的独立开发者；从事机器人、具身智能体研发，需要建立数据工程规范与流程的学习者；希望解决“算法会用，但没有数据支撑落地”痛点的进阶开发者。推荐理由：2025年7月新出版，是国内首部专门聚焦具身智能数据工程的专著，填补市面上只讲算法、不讲数据全链路的空白；由AIRS具身智能中心核心团队（夏轩、俞波、刘少山）撰写，完全贴合工业界真实开发流程，实操性极强；从行业标准、技术流程、工具链、实战案例四个维度，系统讲解具身智能数据全生命周期工程，完全适配个人开发者自建数据集、低成本做具身模型训练的需求；基于AIRSPEED开源项目，配套完整可复用的工程流程，学完即可应用到个人项目中，实用性拉满。2. 书籍内容介绍本书聚焦具身智能数据全生命周期工程，以“标准+技术+实践”为核心，系统讲解如何低成本、高质量构建具身智能数据集，解决行业普遍存在的数据量不足、质量差、Sim2Real迁移难、标注成本高等核心痛点，为具身智能算法落地提供坚实的数据支撑，衔接《具身智能原理与实践》的算法知识，形成“算法+数据”的完整进阶体系。核心章节与重点内容：● 数据工程基础篇：定义具身智能数据类型（视觉、雷达、IMU、动作数据等）、行业规范与质量评价标准，梳理多传感器数据的核心特征与采集要求，建立具身数据工程的整体认知框架，让开发者明确“什么是合格的具身数据”“数据工程的核心流程是什么”。● 数据采集与构建篇：详解真实物理场景数据采集方案（低成本采集设备选型、采集流程、数据同步方法）、仿真环境自动化数据生成策略（基于主流仿真平台，批量生成标注数据）、多模态数据同步与时间对齐技术，适配个人开发者低成本自建数据的实操方案，降低数据采集的门槛与成本。● 数据处理与标注篇：讲解具身智能专属的数据清洗、去噪、帧筛选方法，重点介绍半自动标注、弱监督标注技巧，降低人工标注成本，解决个人开发者“标注工作量大、效率低”的痛点，同时讲解标注数据的质量校验方法，确保数据集的可用性。● Sim2Real与迁移工程篇：本书核心亮点章节，重点讲解仿真域到真实域的数据迁移、域自适应、数据增强策略，解决仿真训练模型无法落地真机的核心难题，给出具体的迁移流程与实操技巧，帮助个人开发者实现“仿真训练→真机落地”的闭环。● 项目实战与开源落地篇：基于AIRSPEED开源项目，配套完整的工程流程、工具链使用教程、数据集封装方法、模型训练数据闭环案例，每个步骤都清晰可操作，个人开发者可直接复用流程与方法到自己的项目中，快速实现数据工程的落地应用。核心亮点：定位稀缺，是具身智能数据工程领域从入门到精通的为数不多的系统读物，填补行业知识空白；不讲空泛理论，全是工业界真实工程流程、实操方法、可落地规范，实用性极强；兼顾个人开发者低成本方案与工业级标准，既适合个人自学，也能为后续职业发展提供规范指导；学完可独立完成从采数据、做标注、建数据集到模型训练的数据全链路，完美解决具身智能落地的核心数据瓶颈。三、后续衔接建议读完整套5本核心书籍（入门3本+进阶2本）后，个人开发者已具备具身智能入门认知+理论基础+智能体开发+底层算法原理+数据工程全链路能力，基本达到专业级具身智能研发入门水平。后续可继续研读国外经典英文专著、ICRA/IROS/CoRL等顶会论文，深入学习ROS2高阶开发、VLA大模型微调部署、复杂场景多智能体协同等内容，进一步提升技术深度与行业视野，稳步向专业级具身智能研发开发者、算法工程师转型。

具身智能小助手 发表于2026-05-25 11:30:43 2026-05-25 11:30:43 最后回复具身智能小助手 0
80 0

智能硬件 EI智能体人工智能机器人
[优秀实践] 具身智能入门书籍-阅读推荐

本文共计：3500+字，阅读时长：14~18分钟。一、前言：阅读定位与核心价值本文聚焦具身智能入门期核心书单，整合3本核心读物——《具身智能》（刘云浩著）、《具身智能：从理论到实践》、《具身智能导论》，面向零基础、想入门具身智能的个人开发者、转行从业者、高校学生及科技爱好者，明确每本书的阅读优先级、适配场景与核心价值，拆解书籍内容与学习重点，帮小白快速找到适合自己的入门路径。核心定位：适配具身智能零基础/入门级学习者，遵循“先建立全局认知→再入门技术实操→接着夯实理论基础”的科学学习逻辑，3本书各有侧重、相互衔接、层层递进，形成完整的入门知识闭环，帮助入门者避开盲目阅读，高效搭建具身智能基础体系，为后续技术攻坚、项目落地奠定坚实基础。阅读顺序：《具身智能》（刘云浩）→《具身智能：从理论到实践》→《具身智能导论》二、核心书籍阅读推荐与内容详解（一）第一本：《具身智能》作者：刘云浩 | 出版社：中信出版社 | 出版时间：2025.011. 阅读推荐（适配性+优先级）优先级：★★★★★（入门首选·通识奠基必读书目）适配人群：完全零基础、想转行学习AI/具身智能的小白；非工科背景，想系统搞懂“具身智能是什么、为什么火、未来发展方向”的学习者；AI产品、行业研究、创业从业者，需要把握具身智能产业趋势；准备系统学习后续专业技术书籍，需要先搭建基础认知框架的入门读者。推荐理由：2025年1月最新出版，紧跟当下大模型、人形机器人、具身AI的最新行业趋势，内容不滞后、有前瞻性；作者刘云浩是清华大学资深教授、智能系统领域顶级专家，内容严谨不浮夸，既有学术高度，又能贴合小白认知；定位是通识科普，不讲复杂公式、不堆砌代码，专门帮小白建立“什么是具身智能、为什么它是AI下一个发展方向”的基础认知；读完这本书再看后面两本专业技术书，能轻松听懂专业术语、理解技术背后的逻辑，大幅降低后续阅读难度。2. 书籍内容介绍本书站在人工智能发展的全局视角，梳理AI从传统“离身智能”（只在虚拟世界运算，不接触物理世界）到大模型，再到“具身智能”（有物理身体，能在真实世界互动）的完整发展过程。跳出“具身智能就是人形机器人”的误区，从思想起源、理论逻辑、技术脉络、产业应用、未来趋势五个方面，用通俗的语言拆解具身智能的本质：智能体拥有物理身体，能在真实环境中感知、互动、学习、进步，打通大模型从“纯文本虚拟智能”走向“物理世界落地应用”的核心逻辑。全书语言通俗、结构清晰，兼顾历史回顾、原理解读与行业预判，是小白入门具身智能的最佳启蒙读物。核心章节与重点内容：● AI演进脉络梳理：回顾符号主义、联结主义、行为主义三代人工智能的兴衰与不足，讲清传统AI和大模型的天生局限，让小白理解具身智能诞生的行业背景和必要性。● 范式变革核心逻辑：详细解析“离身智能”的短板（比如无法感知真实世界、不会灵活互动），说明具身智能诞生的必然性，纠正“具身智能=人形机器人”的认知误区，明确具身智能的核心定义。● 具身智能底层原理：用通俗的语言讲解“身体、环境、感知、认知、决策、行动”的闭环逻辑，不用复杂公式，小白也能看懂具身智能的底层运作机理，建立基础认知框架。● 关键技术全景概览：对多模态感知、环境交互、学习进化、大模型赋能具身等核心技术方向做全面介绍，帮助小白建立初步的具身智能技术认知，不用深入钻研细节。● 产业落地与未来展望：介绍具身智能在人形机器人、智能制造、家庭服务、智慧城市等领域的应用场景，分析行业机遇、技术瓶颈与长期发展趋势，拓宽小白的行业视野。核心亮点：入门门槛极低，没有数学公式、不需要专业前置知识，小白能从头到尾顺畅读完；格局宏大、体系完整，不只是讲技术，还会讲行业思想、发展范式，帮小白建立具身智能的顶层认知；权威且时效性强，2025年初新作，贴合当前行业最新动态，观点有长期参考价值；承上启下作用突出，作为入门第一本，能为后续专业技术书籍做好认知铺垫，让小白学习技术时不突兀、能跟上。（二）第二本：《具身智能：从理论到实践》作者：易显维、吴凯 | 出版社：清华大学出版社 | 出版时间：2025.101. 阅读推荐（适配性+优先级）优先级：★★★★★（入门核心·技术实操破冰书目）适配人群：已读完《具身智能》（刘云浩版），对具身智能有了全局认知的小白；完全零基础、想快速入门具身智能技术，希望兼顾“理解理论+动手实操”，不想只看纯理论的读者；需要快速搭建具身智能基础技术框架，为后续深入学习打基础的开发者。推荐理由：2025年10月最新出版，内容贴合当前具身智能技术前沿，作者是一线技术专家，避开晦涩难懂的纯学术表述，用“理论+代码”结合的方式，降低小白的入门门槛；覆盖具身智能核心基础知识点，衔接前一本书的通识认知和后一本书的理论内容，是入门期的“桥梁型”书籍，阅读难度低、实操性强，是小白技术入门的核心读物。2. 书籍内容介绍本书以AI发展脉络为切入点，打破“理论与实践脱节”的问题，系统讲解具身智能的核心定义、发展历程，以及入门必备的核心技术，全程配套完整可复用的代码实践，让小白能边学边练、快速上手，顺利实现从“通识认知”到“技术入门”的过渡。核心章节与重点内容：● 基础认知篇：拆解具身智能与传统AI的区别，讲解具身智能“脑-身-环境”协同的核心逻辑，通俗解读VLA（具身大型语言模型）的基本原理，衔接前一本书的通识内容，让小白快速衔接技术层面的认知。● 核心技术篇：重点讲解入门必备的技术，包括SLAM（即时定位与地图构建）、多传感器融合、ROS2（机器人操作系统）、视觉语言导航（VLN），每个技术点都搭配简单易懂的原理解析，不堆砌复杂公式，重点讲“是什么、怎么用”，贴合小白认知。● 实践操作篇：配套完整可复用的代码，基于常见的开发工具，讲解简单具身智能场景的实操案例（比如简单机器人导航、视觉感知），步骤清晰，小白可直接跟着操作，快速实现“从理论到实践”的落地，建立学习信心。核心亮点：兼顾通俗性与实操性，知识点覆盖全面，衔接前后书籍内容，是入门期小白最易上手、性价比最高的技术入门书籍；代码案例可直接复用，降低小白的实操门槛；能帮助小白快速建立具身智能的技术认知，避免“入门即放弃”的困境。（三）第三本：《具身智能导论》作者：刘华平、郭迪、孙富春 | 出版社：高等教育出版社 | 出版时间：2024.101. 阅读推荐（适配性+优先级）优先级：★★★★★（入门核心·理论夯实书目）适配人群：已读完《具身智能》（刘云浩版）和《具身智能：从理论到实践》，对具身智能有初步认知和简单技术基础，需要夯实理论基础的小白；希望深入理解具身智能核心机制，不只想单纯掌握实操技巧的读者；后续想向技术深度方向发展，需要完善理论体系的开发者。推荐理由：由高校权威团队（刘华平、郭迪、孙富春）撰写，理论权威性强，内容系统严谨，重点弥补前两本书的理论深度不足；2024年10月出版，内容贴合当前技术趋势，不滞后；以“导论”为定位，结构清晰，侧重讲解具身智能的体系结构与核心原理，为小白后续进阶学习奠定理论基础，是入门期“理论拔高”的核心书籍。2. 书籍内容介绍本书聚焦具身智能的理论体系，系统梳理具身智能的内涵、体系结构与发展趋势，避开复杂的工程化实操，重点讲解“为什么这么设计”“核心机制是什么”，帮助小白从“知道怎么用”（知其然）走向“知道为什么这么用”（知其所以然），实现从“技术入门”到“理论夯实”的提升。核心章节与重点内容：● 体系结构篇：详细讲解具身智能的整体架构，拆解感知、决策、执行三大模块的协同逻辑，分析“脑-身-环境”三者的交互机制，让小白理解具身智能系统的核心构成，衔接前一本书的技术知识点。● 核心原理篇：重点讲解形态计算、视觉导航、主动感知、具身学习与多智能体协同的核心原理，结合简单实例（比如机器人主动避障、多机器人协同作业），让抽象的理论变得易懂，避免纯学术化表述，贴合小白认知。● 发展趋势篇：梳理具身智能的当前挑战、技术突破方向，介绍行业前沿应用场景（比如服务机器人、工业机器人），帮助小白拓宽行业视野，明确后续学习重点，为进阶学习做好铺垫。核心亮点：理论体系完善，权威性强，难度适中，紧密衔接前两本书的内容，侧重理论深度，帮助小白夯实基础，避免“只会用、不懂原理”的问题；是入门期“理论夯实”的关键书籍，能为小白后续进阶学习筑牢理论根基。三、后续衔接建议读完这三本核心入门书籍后，小白已具备具身智能的基础认知、理论体系和基础技术应用能力，顺利完成从“小白”到“入门开发者”的转变。后续可无缝衔接进阶两本核心书籍：《具身智能原理与实践》《具身智能数据工程：标准、技术与实践指南》，进入技术攻坚与数据工程实战阶段，进一步实现实践落地，向具身智能进阶开发者转型。

具身智能小助手 发表于2026-05-25 11:21:11 2026-05-25 11:21:11 最后回复具身智能小助手 0
88 0

智能硬件 EI智能体人工智能机器人
[创想者实战训练营] JiuwenSwarm 智能体：单篇技术博客衍生多篇小红书宣传短文

实操案例介绍什么是JiuwenSwarmJiuwenSwarm是基于openJiuwen智能体开发平台打造的个人专属 AI 助理，JiuwenClaw 的核心使命是「懂你所想，自主演进」。针对你的各种复杂输入场景，如任务追加、打断、修改等，把各类需求排出优先级，并有条不紊地完成，做你的贴身任务管家；同时它也能在你身边自主演进，当你对它表达不满或运行出错时，它会根据你的反馈自动调整相应技能，全心全意为你服务。实操内容概述本案例将指导开发者从零开始，完成JiuwenSwarm的安装，并使用technical-blog-generator技能输出一篇小红书推文。全程约5-10分钟，开发者将完整体验AI智能体辅助办公的全流程。应用场景在办公场景中，宣传推文编写是常见需求，但传统方式需要耗费大量时间进行资料收集、内容编排。本案例基于小红书宣传短文这一典型场景，演示如何借助AI智能体实现宣传短文的自动化生成，大幅提升宣传效率。解决的问题效率问题：传统宣发推文制作耗时耗力，资料调研往往需要数小时甚至数天内容问题：缺乏专业资料支撑，内容空洞或存在信息偏差开发者收获完成本案例实操后，开发者将获得：1. 一份可直接使用的小红书宣发流程：指定主题，自动完成小红书推文撰写与发布2. AI办公思维：理解智能体辅助办公的工作模式，可迁移到其他文档生成场景3. 效率提升认知：体验AI赋能办公的价值，为后续深度使用奠定基础前置准备Windows 10/11操作系统MaaS服务API Key，文本生成和图片生成华为云MaaS平台大模型Tokens福利领取：1）方式一：登录华为开发者空间，参考案例《华为开发者空间 - ModelArts Studio大模型通用代金券领取使用指导》中的“二、开通MaaS平台大模型”章节内容领取代金券，下述案例以配置glm-5.1和qwen-image为例，建议在此开通这两个模型，获取相关的API地址、模型名称和API Key，并保存好。2）方式二：登录华为开发者空间，参考案例《华为云MaaS平台大模型Tokens领取使用指导》中的“二、领取MaaS平台大模型Tokens”章节内容，领取MaaS平台DeepSeek V3系列大模型Tokens代金券，购买ModelArts Studio DeepSeek Tokens套餐包，开通模型服务，最后获取到模型的API地址、模型名称和API Key。实操步骤一、下载JiuwenSwarm客户端1.访问JiuwenSwarm产品页面：cid:link_5。2.选择“Windows”平台，点击“立即下载”按钮，下载安装包。3.安装包名称：“JiuwenSwarm-setup-0.2.0.exe”（版本号可能更新）。二、安装JiuwenSwarm1.双击下载的安装包启动安装程序，并根据提示完成安装。2.建议安装目录使用默认路径。3.建议使用默认配置安装。三、完成JiuwenSwarm配置1.打开JiuwenSwarm客户端，点击左边侧栏“配置信息”。2.完成主对话模型配置和视觉模型配置，本次案例使用的华为云ModelArts平台中提供MaaS服务，主对话模型使用glm-5.1，视觉理解模型选择qwen-image，参考配置方式如下：3.主对话模型具体配置信息：4.视觉模型具体配置信息：5.完成配置后，切记点击右上角的“保存”按钮，若未保存，需要重新执行上述步骤配置MaaS服务。四、安装technical-blog-generator技能1.点击左边侧栏的“技能”，并选择“技能广场”→“SwarmSkills在线检索”。2.在搜索栏中输入“technical-blog-generator”，并点击“安装”按钮。3. technical-blog-generator技能已在SwarmSkillsHub上发布，可以访问cid:link_4查看具体内容。五、使用配置技能生成小红书宣传短文1.在JiuwenSwarm对话窗口选择“规划模式”，并在输入框填入指令，如“帮我生成一篇介绍swarm skills hub的小红书推文”，还可输入其他主题或场景的指令，比如“帮我生成2篇养生/健身相关的小红书推文”。2. JiuwenSwarm创建Todo列表并依次执行任务，可查看具体流程：1）执行信息检索，获取相关信息，提取关键信息，形成参考清单。2）分析内容并判断帖子类型与配图策略。3）生成小红书宣传短文初稿。4）文本质量审查和事实自检。5）生成配图文案。3.用户二次确认：确认文本初稿、配图是否符合预期，不符合预期则输入指令进行修改。4.可在输入框发送“刚才生成的图片和小红书帖子的位置在哪里”获取最终生成的图片、小红书初稿等文件存放地址（一般存放于“C:\Users\用户名\.jiuwenswarm\agent\workspace”）, 用户将图文复制粘贴到小红书创作平台（https://creator.xiaohongshu.com/），完成发布。部分过程如下：5.注意事项：默认会调用“task_tool”派生子agent的方式来完成信息收集，此方式效果好但耗时较长，在时间、资源受限场景，可以采用更轻便的方式，即直接调用信息收集的相关工具来完成，只需要在输入指令时，加一句“不要使用子agent来执行任务”，比如上述案例需要改为“帮我生成一篇介绍swarm skills hub的小红书推文，不要使用子agent来执行任务”。进阶体验1 多篇小红书量产：上述内容是发布单篇帖子的示例，此外，也支持同时发布多篇小红书推文，比如输入“从openJiuwen社区查找coordination engineering相关的博客，帮我分别生成3篇小红书博文，主题依次为Swarm team（Agent team）、Swarm Skill、Swarm Skill自演进”，效果如下图所示：进阶体验2 多智能体五子棋对弈：在输入框下方选择“集群模式”开启多智能体协作范式，输入“创建2人团队，模拟两个人下五子棋，为双方分别创建一个下棋任务，决出胜负后完成任务，双方直接通过对话下棋，每步必须在消息中输出棋盘，我要实时看到棋局，两人专注下棋对其他消息静默处理”，效果如下图所示：案例总结通过本案例实操，我们体验了基于JiuwenSwarm自动生成小红书宣传推文，完整流程包括：步骤功能说明下载安装一键部署无需配置环境，快速上手配置主对话模型，视觉模型自定义大模型服务需要准备大模型服务的API Key输入指令前端输入框直接输入需要说明宣传推文主题，参考对象信息（可选）登陆小红书，并发布帖子用户验证与笔记发布小红书笔记发布JiuwenSwarm核心优势1. 多智能体协同：基于Swarm Team、Swarm Skill、Swarm Skill Hub、Swarm Skill自演进，构建完善协同工程体系，实现“单智能体好用-多智能体协同-团队能力沉淀-团队能力演进”的完整闭环。2. 任务自主管理：用户可以随时对任务进行动态打断、追加和修改。任务执行过程中，实时展示当前任务状态，中途打断或追加，也可以灵活地重新规划与更新任务列表，不必等待前述任务完成。3. Skills自主演进：基于openJiuwen自演进框架，支持Skills自主演进。比如某次工具调用失败，或者用户说了“不对”、“换个方式”，系统会主动记录这些执行错误和反馈，分析根因，生成针对性的改进建议。同时，会向用户弹出演进审批窗口，所有更新由用户自己决定。4. 上下文压缩和卸载：通过上下文卸载（Context Offload）机制，有效节省成本，同时支持实时展示当前上下文状态，用户可以清晰看到压缩前后的上下文长度和压缩比。5. 记忆随行：通过分层持久化记忆系统，实现身份、场景、操作轨迹的全维度长效存储与智能检索，保障跨会话交互的连贯与精准。参考链接openJiuwen官网：cid:link_6JiuwenSwarm项目地址：cid:link_3JiuwenSwarm项目文档：cid:link_5【训练营小tip】如您在案例实操过程中遇到问题或有改进建议，可以在开发者训练营群内反馈，我们会及时响应处理，谢谢！欢迎扫码，加入华为云Inspire创想者大会实战训练营技术交流群扫码获取更多训练营资讯

Data&AI资讯助手 发表于2026-05-15 18:01:31 2026-05-15 18:01:31 最后回复 Data&AI资讯助手 0
454 0

EI智能体
[互动交流] 训练作业中使用os.system('cd xxx')无法进入相应的文件夹？

为什么训练作业中使用os.system('cd xxx')无法进入相应的文件夹呢

yd_263288650 发表于2022-12-19 17:27:51 2022-12-19 17:27:51 最后回复雨落无痕 2023-04-13 09:33:17
41 3

EI智能体人工智能
[互动交流] 自动学习使用子帐号点击开始训练出现错误Modelarts.0010

自动学习使用子帐号点击开始训练出现错误Modelarts.0010

R君 发表于2022-12-19 17:23:49 2022-12-19 17:23:49 最后回复雨落无痕 2023-04-13 09:32:58
46 2

EI智能体人工智能

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript