• [技术干货] Ascend>MindSpeed>Ascend PP支持动态形状
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/variable_seq_lengths.md 
  • [问题求助] 32期给的CASE中天线数量和problem里面定义的数量对不上
    Problem中,定义的天线数量是59个。 在Case中给出的天线数量56个,缺少51~53天线的工况可选集数据。 同样EPT中也缺少51~53天线的数据。 但是附件中给的cell_data示例中就有59行数据,而且很奇怪的是59行数据的antId有明显重复,不理解这是笔误还是什么原因。
  • [公告] 开发者空间云主机升级云开发环境桌面版问卷调研
    为了更好的满足开发者体验,当前云主机将会在升级为云开发环境桌面版,整体计划如下:1)25年11月份会上线云开发环境桌面版,届时云主机和云开发环境桌面版共存,26年年中原有云主机功能将不可用,仅剩云开发环境桌面版。在此期间,用户可以手动迁移自己在云主机中的个人资料到云开发环境桌面版。2)功能上,原有云主机功能会全部在云开发环境桌面版里面保留;并做了如下增强:    a)支持在远程桌面的基础上,叠加IDE远程开发能力,即可以通过CLI/IDE连接进入环境。    b)支持开通多个云开发环境,共享额度。    c)支持使用远程桌面客户端软件(如vnc客户端)远程访问(云主机仅支持Web访问)。3)体验上,解决了如下问题:    a)无法直接上下传文件到云主机。    b)无法从外部验证调试云主机内的 Web 应用。    c)用户无法通过xshell等工具ssh到云主机调测。 同时,为了用户能有更好的使用体验,满足更多开发者述求,云开发环境桌面版正式上线前,欢迎大家参与问卷调研,我们将根据调研结果,对云开发环境桌面版做进一步的升级。参与调研点击:问卷链接
  • [技术干货] 10月技术干货应用文章合集
    1、AI在交通领域的应用有哪些?文章链接:cid:link_0文章描述:智能驾驶通过多传感器融合(摄像头、激光雷达等)和深度学习算法(YOLO、PointNet等)实现环境感知,结合高精地图与GNSS/SLAM定位,采用强化学习和A*/MPC进行决策规划与控制。交通优化利用时空模型(ST-ResNet)预测流量,通过强化学习动态调整信号灯,AI视频分析管理事件。智慧物流应用遗传算法、强化学习优化路径与调度,AGV实现仓储自动化。车路协同依托5G/C-V2X通信,实现V2X信息交互与AI预警,提升全局交通效率与安全性。2、自然语言处理中的语义理解:从 BERT 到 LLaMA 的上下文建模技术文章链接:cid:link_1文章描述:自然语言处理(NLP)的核心挑战在于实现机器对人类语言深层语义的精准理解。传统方法依赖词法分析和语法规则,但面对“他打破了记录”这类语义歧义时,传统方法难以区分“破坏”与“刷新”的语境差异。随着深度学习技术的突破,以BERT和LLaMA为代表的预训练语言模型,通过上下文建模技术重新定义了语义理解的范式.....3、深入分析MySQL死锁的产生原因、检测方法及解决方案文章链接:cid:link_2文章描述:MySQL死锁是什么?如何产生的?如何检测和诊断死锁?如何避免和解决死锁问题?死锁对系统性能有什么影响?从实际出发,解锁MySQL死锁的核心要点....4、Qwen2-VL-7B-Instruct是通义千问系列中的一款多模态大模型文章链接:cid:link_3文章描述:Qwen2-VL-7B-Instruct是通义千问系列中的一款多模态大模型,具备强大得视觉与语言理解能力。它在保持较小体积的同时,提供了出色的视觉理解和语言生成能力,是当前中文多模态AI领域的优秀选择之一。华为开发者空间内置昇腾NPU资源,开发者每天共有两个小时的免费使用时长,本次为开发者带来基于华为开发者空间Notebook部署Qwen2-VL-Instruct模型进行图片理解全流程...5、MySQL索引深度解析:原理、类型与优化实践文章链接:cid:link_4文章描述:查询性能是系统稳定与用户体验的关键。MySQL作为最流行的关系型数据库之一,其核心性能优化手段之一便是索引(Index)。合理使用索引可以将查询速度从秒级提升至毫秒级,但不当使用也可能导致性能下降甚至锁表问题。索引是数据库中用于快速查找数据的一种数据结构,类似于书籍的目录。它并不存储完整的数据行,而是存储列值及其对应的物理地址(主键或行指针),从而避免全表扫描(Full Table Scan),大幅提高查询效率...6、RabbitMQ 中交换机的四类模式【面试必备】文章链接:cid:link_5文章描述:在 RabbitMQ 中,交换机(Exchange)是消息路由的核心组件,负责将生产者发送的消息路由到对应的队列。不同类型的交换机通过不同的路由规则工作,fanout、topic、direct、headers 是四种常见类型,核心区别在于路由键(Routing Key)与绑定键(Binding Key)的匹配规则...7、【Java 进阶】重生之我要吃透 Spring 事务管理文章链接:cid:link_6文章描述:事务管理是确保数据一致性和完整性的核心机制。Spring框架作为Java生态系统中最重要的框架之一,提供了强大而灵活的事务管理功能。本文将从基础概念出发,深入探讨Spring事务管理的各个方面,通过丰富的代码示例和实践案例,帮助开发者全面掌握Spring事务管理的精髓...8、一文带你了解LLM与VLM的区别文章链接:cid:link_7文章描述:LM是​​以文本为核心​​的大规模预训练模型,通过学习海量文本数据(如书籍、网页、对话),掌握语言的语法规律、语义理解与生成能力,擅长处理纯文本任务(如文本生成、问答、翻译)。其本质是“​​文本世界的语言专家​​”,但无法直接理解视觉信息(如图像、视频)。 VLM是​​融合视觉与语言的多模态模型​​,通过结合视觉编码器(如ViT)与文本编码器(如Transformer),实现图像/视频与文本的跨模态理解与生成。其本质是“​​能看懂世界的文本专家​​”,既能处理纯文本任务,也能处理视觉相关任务(如图像描述、视觉问答、图文检索)...
  • [技术干货] Ascend>MindSpeed>Ascend fused ema adamw优化器
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/fused_ema_adamw_optimizer.md 
  • [技术干货] Ascend>MindSpeed>Ascend alibi
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/alibi.md 
  • 【话题交流】谈谈大家对在2025.10月份都学到了哪些新知识
    各位华为云社区的技术同仁、开发者伙伴们,大家好!金秋十月尾声已至,当技术圈的节奏随着秋意渐深沉淀下来时,相信每一位深耕领域的伙伴,都在这 31 天里藏着属于自己的 “知识新收获”—— 可能是啃完了华为云最新发布的《云原生架构实践指南》,摸清了容器编排的新优化点;可能是在项目里实战了 AI 大模型的微调,终于攻克了数据预处理的瓶颈;也可能是跟着社区直播学了物联网设备接入的新协议,或是在故障排查中掌握了云监控的高阶用法。技术的成长从不是孤立的,你踩过的坑、吃透的知识点,或许正是其他伙伴急需的经验;而别人分享的新工具、新思路,也可能帮你打开下一个技术突破的窗口。今天咱们就借着这个话题,抛开复杂的项目需求,卸下紧绷的调试压力,一起聊聊十月里那些让你 “眼前一亮” 的新知识 —— 不管是硬核的技术原理、实用的工具技巧,还是从实践里悟到的方法论,都欢迎拿出来和大家交流碰撞。 咱们从 “十月学到的第一个新知识” 开始,畅聊成长,共探技术吧!
  • 【合集】存储服务2025.10月技术干货合集
    出口交换机双机热备与双运营商配置方案分享cid:link_3 华为云 CCI的云原生 CloudBursting 解决方案计费模式详解cid:link_0 华为云 CCI 的 CloudBursting 解决方案中常见故障排除cid:link_4 华为CCI与Kubernetes集群的关系:从互补到协同的云原生实践cid:link_5 解密GaussDB中sync_percent的计算cid:link_1 华为云CCI弹性伸缩策略配置指南cid:link_6 小熊派hi3863常见报错问题解决方法cid:link_7 MDC300F 的程序迁移到 MDC510cid:link_8 Redis Cluster在CAP中的权衡及机制体现cid:link_9 常用数据库优化方法总结cid:link_10 数据库的Isolation特性cid:link_11 不同芯片对AI算子支持的差异大比较cid:link_12 扩散模型迭代优化机器人动作cid:link_13 常见的视觉编码器和语言模型融合cid:link_14 算子适配的小原理cid:link_15 一文带你了解LLM与VLM的区别cid:link_16 ACT、SmolVLA、Pi0又是总结cid:link_17 逆向去噪训练的具体过程分享cid:link_18 扩散模型与机器人动作cid:link_2 一文带你走进流匹配机制 (Flow Matching)cid:link_19 GaussDB(DWS)分布式表的结构cid:link_20 Redisson里锁防止误删原理解密cid:link_21 
  • Redisson里锁防止误删原理解密
    Redisson 作为 Redis 分布式锁的主流实现框架,其核心设计目标之一就是防止锁的误删(即一个客户端删除了其他客户端持有的锁)。这一目标通过锁的唯一标识机制、原子性释放逻辑、自动续期(看门狗) 三大核心手段实现一、锁的唯一标识:绑定客户端与锁的归属关系Redisson 的分布式锁在 Redis 中以 Hash 数据结构 存储,通过 “客户端唯一标识 + 重入次数” 明确锁的归属,从根源上避免 “认错锁” 导致的误删。1. Hash 结构的设计锁在 Redis 中的存储格式为:键(Key):用户定义的锁名称(如 myLock),标识一把具体的锁;字段(Field):客户端的唯一 ID(由 Redisson 自动生成,格式为 {UUID}:{线程ID}),确保每个客户端(甚至同一客户端的不同线程)的标识唯一;值(Value):整数类型,记录该客户端对锁的重入次数(解决重入锁场景)。举个栗子,客户端 A 的线程 1 获取锁后,Redis 中存储为:myLock: { "f47ac10b-58cc-4372-a567-0e02b2c3d479:1": 1 // 重入次数为1 }   2. 唯一标识的作用客户端在获取锁时,会自动生成并绑定自己的唯一 ID;释放锁时,必须验证当前操作的客户端 ID 与 Hash 字段中的 ID 一致,否则拒绝释放。这就从逻辑上确保了 “只有锁的持有者才能操作锁”,避免其他客户端误删。二、原子性释放逻辑:通过 Lua 脚本避免 “检查 - 删除” 的并发漏洞即使有了唯一标识,若释放锁的 “检查持有者” 和 “删除锁” 操作非原子,仍可能出现误删(例如:客户端 A 检查到自己是持有者,但在删除前锁过期,客户端 B 已获取锁,此时 A 再删除就会误删 B 的锁)。Redisson 通过Lua 脚本将 “检查 + 释放” 封装为原子操作,彻底避免这一漏洞。1. 释放锁的 Lua 脚本逻辑Redisson 释放锁时执行的核心 Lua 脚本如下(简化版):-- 1. 检查当前客户端 ID 是否与锁的持有者 ID 一致 if redis.call('hexists', KEYS[1], ARGV[1]) == 0 then return nil -- 不一致,直接返回(不做任何操作,避免误删) end -- 2. 一致则减少重入次数 local counter = redis.call('hincrby', KEYS[1], ARGV[1], -1) -- 3. 若重入次数仍 >0,说明锁仍被持有,仅更新过期时间 if counter > 0 then redis.call('pexpire', KEYS[1], ARGV[2]) return 0 -- 4. 若重入次数 =0,说明锁已完全释放,删除整个锁键 else redis.call('del', KEYS[1]) -- 触发解锁通知(供等待的客户端竞争锁) redis.call('publish', KEYS[2], ARGV[3]) return 1 end  2. 原子性的关键作用Lua 脚本在 Redis 中是单线程执行的,整个 “检查持有者→修改重入次数→删除锁(或续期)” 的流程不会被其他客户端的操作打断,确保了释放逻辑的安全性:若客户端 ID 不匹配,直接拒绝释放(避免误删他人的锁);若客户端 ID 匹配,仅在重入次数归零时才删除锁(避免提前释放自己的锁)。三、自动续期(看门狗机制):防止锁过期被误删分布式锁通常会设置过期时间(防止客户端崩溃后锁永久残留),但如果客户端持有锁的时间超过过期时间,锁会自动释放,可能被其他客户端获取,此时原客户端再释放锁就会误删新持有者的锁。Redisson 的看门狗(Watch Dog) 机制通过自动续期解决这一问题。1. 看门狗的工作原理默认过期时间:Redisson 锁的默认过期时间为 30 秒;续期触发:当客户端获取锁后,若未主动释放锁且操作未完成,Redisson 会启动一个 “看门狗” 后台线程,每隔 10 秒(过期时间的 1/3)自动将锁的过期时间延长至 30 秒;停止续期:当客户端主动释放锁(调用 unlock())或客户端崩溃时,看门狗线程会停止,锁会在剩余时间后自动过期。2. 防止误删的核心逻辑看门狗确保了 “只要客户端持有锁且正常运行,锁就不会过期”,从而避免了 “锁过期后被其他客户端获取,原客户端后续误删” 的场景:若客户端 A 正常持有锁,看门狗会持续续期,锁不会过期,其他客户端无法获取,A 释放时只会删除自己的锁;若客户端 A 崩溃,看门狗线程终止,锁会在 30 秒后过期,此时其他客户端可获取锁,但 A 已崩溃,不会再执行释放操作,不存在误删。四、总结一下下:三大机制协同防止误删Redisson 防止锁误删的核心逻辑是 “明确归属 + 原子操作 + 动态续期” 的三重保障:唯一标识(Hash 结构):通过客户端 ID 绑定锁的持有者,确保 “谁的锁谁操作”;原子释放(Lua 脚本):将 “检查 - 释放” 封装为原子操作,避免并发场景下的判断与执行脱节;看门狗续期:防止锁在客户端持有期间过期,避免其他客户端抢占后被原客户端误删。
  • 一文带你走进流匹配机制 (Flow Matching)
      流匹配机制(Flow Matching)是生成模型领域的一种连续时间分布学习方法,核心是通过学习 “从简单初始分布(如高斯噪声)到目标数据分布(如真实图像、动作序列)的连续变换流(Flow)”,让模型逐步将噪声转化为符合真实数据特征的样本。它无需像扩散模型那样依赖 “加噪 - 去噪” 的离散步骤,而是通过常微分方程(ODE)描述分布的平滑变换,本质是 “让模型学习数据分布的‘运动轨迹’,从而生成样本”。一、流匹配的核心原理:连续流与分布映射流匹配的核心逻辑可拆解为 “定义流→匹配流→生成样本” 三步,核心是通过神经网络建模连续流函数,让初始分布的 “流” 逐步贴合目标数据分布的 “流”。1. 基础概念:什么是 “流(Flow)”?“流” 指的是数据样本随时间变化的连续变换过程,用数学中的 “连续时间流” 描述:假设存在一个时间区间 t∈[0,1],其中:t=0 时,样本服从初始简单分布 p0​(x)(通常是标准高斯分布 N(0,I),即 “噪声”);t=1 时,样本需服从目标数据分布 p1​(x)(如真实图像的像素分布、机器人动作的关节角度分布);对于任意中间时间 t,样本服从过渡分布 pt​(x),且 pt​(x) 随 t 从 p0​ 平滑过渡到 p1​—— 这个 “过渡过程” 就是 “流”。数学上,流通过常微分方程(ODE) 定义:dtdx(t)​=v(x(t),t)其中 v(x(t),t) 是 “流函数”(Velocity Function),负责描述 “样本在时间 t、状态 x(t) 时的变换方向和速度”—— 这是流匹配中唯一需要学习的核心组件(通常由神经网络建模,如 U-Net、Transformer)。2. “匹配” 的目标:让模型流贴合数据流流匹配的关键是 “匹配”—— 让模型学习的流函数 vθ​(x,t)(θ 是模型参数),尽可能贴合 “目标数据分布隐含的真实流 v∗(x,t)”。如何定义 “真实流 v∗”?核心是利用 “目标数据样本” 反向推导:从目标分布 p1​ 中采样真实样本 x1​,从初始分布 p0​ 中采样噪声样本 x0​;构造一条 “从 x0​ 到 x1​ 的连续路径” xt​=(1−t)x0​+tx1​(最简单的线性插值路径,也可设计更复杂的路径);这条路径的 “真实速度” 就是 v∗(xt​,t)=dtdxt​​=x1​−x0​;模型的训练目标,就是让学习到的流函数 vθ​(xt​,t) 与这条路径的真实速度 v∗ 尽可能接近 —— 即 “匹配流的速度”。二、流匹配的具体训练过程流匹配的训练逻辑简洁,无需复杂的噪声调度(如扩散模型的 βt​ 调度),核心是 “采样路径→计算真实速度→优化流函数”,具体步骤如下:1. 数据准备:获取目标分布样本从目标数据集中采样一批真实样本 x1​∼p1​(x)(如图像、动作序列);从初始简单分布中采样一批噪声样本 x0​∼p0​(x)(如标准高斯噪声)。2. 构造训练样本对:时间步与插值路径随机采样一个时间步 t∼Uniform(0,1)(连续时间,无需离散化);对每一对 (x0​,x1​),构造中间状态 xt​=(1−t)x0​+tx1​(线性插值路径,确保从 x0​ 平滑过渡到 x1​);计算该中间状态的真实流速度:v∗=x1​−x0​(路径的导数)。3. 流函数建模与损失函数优化将 (xt​,t) 输入流函数网络 vθ​,得到模型预测的流速度 vθ​(xt​,t);定义匹配损失:最小化预测速度与真实速度的距离(常用均方误差 MSE):L(θ)=Ex0​∼p0​,x1​∼p1​,t∼Uniform(0,1)​[∥vθ​(xt​,t)−(x1​−x0​)∥2]通过梯度下降(如 Adam 优化器)更新网络参数 θ,让模型逐步学会 “匹配真实路径的速度”。4. 生成推理:解 ODE 得到目标样本训练完成后,生成样本的过程就是 “让初始噪声沿着学习到的流,随时间从 t=0 演化到 t=1”,具体为:从初始分布 p0​ 采样一个噪声样本 x(0)∼N(0,I);求解常微分方程 dtdx(t)​=vθ​(x(t),t),从 t=0 积分到 t=1(常用数值解法如欧拉法、龙格 - 库塔法 RK4,也可通过加速算法如 DPM-Solver 提速);当 t=1 时,得到的 x(1) 就是符合目标分布 p1​ 的生成样本(如图像、动作序列)。三、流匹配的核心优势(对比扩散模型、GAN)流匹配之所以近年受到关注,是因为它在稳定性、生成多样性、推理灵活性上有显著优势,尤其适合对连续性要求高的场景(如视频生成、机器人动作生成):对比维度流匹配(Flow Matching)扩散模型(Diffusion)GAN核心机制连续 ODE 流,无离散加噪步骤离散加噪 - 去噪步骤生成器与判别器对抗训练训练稳定性无对抗或噪声调度依赖,损失平稳需调优噪声调度(如βt​),损失波动小易模式崩塌,损失不稳定生成多样性依赖连续流的随机性,多样性高依赖采样噪声,多样性较高易因对抗失衡导致多样性不足推理速度可通过数值解法灵活控制(步数可多可少)需固定离散步数(如 1000 步,需加速)单步生成,速度快但质量依赖调优连续性场景适配天然适合连续数据(视频、动作)需处理帧间离散化,适配成本高连续场景易出现帧间跳变四、典型应用场景流匹配的 “连续流” 特性使其在需要平滑过渡、高连续性的生成任务中表现突出:视频生成:生成帧间平滑的视频(如动态场景、人物动作),避免帧间跳变;机器人动作生成:如机械臂精细操作(叠衣服、抓取)、移动机器人路径规划,确保动作连续无卡顿(之前提到的 Pi0 模型就用到了流匹配优化动作生成);图像编辑:如风格迁移、图像修复,实现像素级的平滑变换;分子生成:生成化学分子的连续结构变化,辅助药物研发。总结一下下流匹配的核心是 “用连续时间的流函数,学习从噪声到真实数据的平滑变换路径”,通过 “匹配真实路径的速度” 实现分布建模。它无需离散加噪或对抗训练,兼具训练稳定性和生成多样性,尤其适合连续型数据生成任务,是当前生成模型领域的重要发展方向之一。
  • 扩散模型与机器人动作
    扩散模型之所以能有效生成机器人动作,核心在于其​​通过“去噪扩散”机制模拟动作生成的随机性与合理性​​,并结合​​多模态条件引导​​、​​运动学约束​​及​​实时优化​​,解决了机器人动作生成中的“多模态性”“长时序性”“物理可行性”等关键问题。​​一、核心逻辑:去噪扩散机制模拟动作生成的“试错-修正”过程​​扩散模型的本质是​​通过“加噪-去噪”的迭代过程,学习动作序列的概率分布​​。其核心思想源于“扩散过程”(Forward Diffusion)与“逆向过程”(Reverse Diffusion)的结合:​​扩散过程(加噪)​​:对真实的机器人动作序列(如关节角度、末端位姿)逐步添加高斯噪声,使其从“干净”状态退化为“纯噪声”状态。这一过程模拟了机器人动作生成的“随机探索”——机器人在尝试新动作时,会因环境不确定性(如障碍物、负载变化)产生“噪声”(即动作偏差)。​​逆向过程(去噪)​​:训练一个​​去噪网络​​(如Transformer、U-Net),从纯噪声中逐步恢复出合理的动作序列。去噪网络通过学习“噪声-动作”的映射关系,学会识别并修正噪声,最终生成符合“观察条件”(如视觉感知、语言指令)的动作。举个栗子,在工业机器人路径规划中,扩散模型会将“从起点到终点的无碰撞路径”这一真实动作序列,通过多次加噪变为随机噪声;再通过去噪网络,从噪声中“提炼”出符合环境约束的路径。​​二、关键机制:多模态条件引导与长时序动作生成​​机器人动作生成需结合​​视觉、语言、触觉​​等多模态信息(如“抓取桌子上的红色杯子”需视觉识别杯子位置、语言理解指令),且需处理​​长时序动作​​(如“组装家具”需多步协调)。扩散模型通过以下设计解决这些问题:​​多模态条件嵌入​​:将视觉(如RGB-D图像)、语言(如文本指令)等条件编码为“条件令牌”,与动作序列拼接后输入去噪网络。举个栗子,在“文本条件运动学扩散模型(RobotMDM)”中,文本指令(如“挥右手”)会被编码为条件向量,引导去噪网络生成符合指令的动作。​​长时序动作建模​​:采用​​时空注意力机制​​(如Transformer的编码器-解码器结构)或​​图神经网络(GNN)​​,捕捉动作序列中的时间依赖关系(如“抓取”后需“提升”再“放置”)。举个栗子,“运动学增强时空图扩散器(KStar Diffuser)”通过构建“时空机器人物理图”(节点为关节,边为空间关系),显式建模双臂机器人的运动约束,生成符合时间一致性的动作。​​三、优化策略:运动学约束与实时性能提升​​机器人动作需满足​​物理约束​​(如关节角度限制、避免碰撞),且需​​实时执行​​(如工业机器人的高速生产)。扩散模型通过以下策略优化动作质量与效率:​​运动学约束正则化​​:引入​​可微分运动学模块​​(如正向运动学FK、逆向运动学IK),将关节空间监督融入去噪过程。例如,“KStar Diffuser”通过正向运动学将关节角度映射为末端位姿,作为条件引导去噪网络生成“无碰撞、符合关节限制”的动作;“RobotMDM”则通过奖励代理模型(评估动作的物理可行性)微调生成模型,确保生成的动作(如踢腿、坐姿)在物理上稳定。​​实时推理优化​​:通过​​单步蒸馏​​(如OneDP)将预训练的扩散策略(需多次迭代去噪)提炼为“单步动作生成器”,大幅提升推理速度。例如,OneDP通过最小化扩散链上的KL散度,将推理速度从1.5Hz提升至62Hz,满足动态环境(如避障)的实时需求。​​四、总结:扩散模型生成机器人动作的优势​​扩散模型之所以能成为机器人动作生成的主流方法,核心优势在于:​​多模态兼容性​​:能融合视觉、语言、触觉等多模态信息,适应复杂场景(如“根据语言指令抓取特定物体”);​​长时序建模​​:能生成多步协调的动作序列(如“组装家具”),避免短视规划;​​物理可行性​​:通过运动学约束与奖励模型,确保生成的动作符合机器人硬件限制(如关节角度、负载);​​实时性能​​:通过单步蒸馏等优化策略,满足工业机器人的高速生产需求。​​应用案例:扩散模型在机器人动作生成中的实际效果​​​​工业机器人路径规划​​:通过扩散模型生成的路径,能避免障碍物且符合运动学约束,成功率较传统方法(如RRT*)提升20%以上;​​人形机器人动作生成​​:“RobotMDM”生成的踢腿、坐姿等动作,能根据物理约束调整(如踢腿时避免失去平衡),在实际机器人上的执行成功率较传统运动学方法提升30%;​​双臂机器人操作​​:“KStar Diffuser”生成的双臂动作,能避免自碰撞且符合关节限制,在“推箱子”“举球”等任务中的成功率较基线方法(如DP-J)提升15%以上。综上,扩散模型通过“去噪扩散”机制、多模态条件引导、运动学约束优化及实时推理提升,实现了机器人动作的“合理、可行、实时”生成,为机器人在工业、服务、娱乐等领域的应用提供了关键技术支撑。
  • 逆向去噪训练的具体过程分享
    逆向去噪训练是扩散模型(Diffusion Models)的核心过程,其目标是通过学习逐步去除噪声,从纯高斯噪声中生成逼真的数据样本(如图像、文本等)。细解析:一、逆向去噪训练的整体框架逆向去噪训练基于正向扩散过程和逆向生成过程的联合建模:正向扩散过程(固定且预先定义):从真实数据 x0​ 出发,通过 T 步逐步添加高斯噪声,最终得到纯噪声 xT​。每一步的加噪公式为:xt​=αt​​⋅xt−1​+1−αt​​⋅ϵt​其中,αt​=1−βt​,βt​ 是随时间递增的噪声方差调度参数,ϵt​∼N(0,I) 是当前步的高斯噪声。逆向去噪过程(可学习):训练神经网络(通常为 U-Net)预测每一步的噪声残差,从纯噪声 xT​ 逐步还原出 x0​。逆向过程的核心公式为:xt−1​=αt​​1​(xt​−1−αˉt​​1−αt​​⋅ϵθ​(xt​,t))+σt​⋅z其中,ϵθ​(xt​,t) 是模型预测的噪声,z 是随机采样的高斯噪声(用于保持生成多样性),σt​ 控制随机性强度。二、逆向去噪训练的具体步骤1. 训练数据准备输入真实数据样本 x0​(如图像),通过正向扩散过程生成一系列带噪样本 {x1​,x2​,…,xT​}。每个带噪样本 xt​ 对应一个真实噪声 ϵ,可通过闭式公式直接计算:其中,αˉt​=∏s=1t​αs​,这一性质允许直接从 x0​ 生成任意时间步 t 的 xt​,无需逐步加噪。2. 噪声预测网络设计网络结构:通常采用 U-Net,包含编码器(下采样)、瓶颈层(自注意力)和解码器(上采样),并通过残差连接和时间步嵌入(Time Embedding)增强性能。时间步嵌入:将时间步 t 编码为向量,注入网络各层,使模型能感知当前去噪阶段的噪声强度。3. 损失函数定义训练目标是最小化预测噪声 ϵθ​(xt​,t) 与真实噪声 ϵ 的均方误差(MSE): L=Ex0​,t,ϵ​[∥ϵθ​(xt​,t)−ϵ∥22​] 该损失函数迫使模型在所有时间步上准确估计噪声残差。4. 优化过程随机采样时间步:每次训练迭代随机选择一个时间步 t∈{1,2,…,T},从真实数据 x0​ 生成对应的 xt​。重参数化技巧:将随机噪声采样转化为确定性计算,确保梯度可反向传播。例如,真实噪声 ϵ 可表示为: 从而避免直接采样操作对梯度的阻断。反向传播与参数更新:通过随机梯度下降(SGD)或 Adam 优化器更新网络参数 θ,使预测噪声与真实噪声的差异最小化。5. 生成阶段推理初始化:从标准正态分布采样纯噪声 xT​∼N(0,I)。迭代去噪:从 t=T 到 t=1,依次应用逆向去噪公式,逐步去除噪声。输出结果:最终得到生成数据 x0​,其分布与训练数据高度相似。三、关键技术细节1. 噪声方差调度策略线性调度:βt​ 随时间线性递增,早期加噪缓慢,后期加速推向纯噪声。余弦调度:βt​ 基于余弦函数动态调整,初期增长更平缓,后期快速上升,生成质量更高,是当前主流选择。2. 采样加速技术DDIM(去噪扩散隐式模型):引入确定性采样路径,在不显著降低生成质量的前提下,将采样步数从 1000 步缩短至数十步。DPM-Solver 系列:基于常微分方程(ODE)求解器,实现 10~20 步高质量生成,大幅提升推理速度。3. 正则化与稳定性优化指数移动平均(EMA):对模型参数进行平滑处理,提升生成样本的一致性。分类器引导(Classifier Guidance):引入外部分类器梯度,增强对生成结果的语义控制能力。四、数学推导核心逻辑贝叶斯定理应用:逆向过程的均值函数 μθ​(xt​,t) 通过贝叶斯定理推导,结合前向过程的高斯假设,得到闭式解:μθ​(xt​,t)=αt​​1​(xt​−1−αˉt​​1−αt​​⋅ϵθ​(xt​,t))该公式将噪声预测转化为对均值的调整。变分下界(VLB):训练目标可拆解为多个 KL 散度和熵项的和,通过最小化 VLB 间接优化对数似然:LVLB​=∑t=1T​[DKL​(q(xt​∣xt−1​)∥pθ​(xt−1​∣xt​))]这一公式确保模型逐步逼近真实数据分布。五、总结一下下逆向去噪训练通过学习噪声残差预测,实现了从纯噪声到真实数据的逆过程还原。其核心优势在于:稳定性高:避免了生成对抗网络(GAN)常见的模式崩塌问题。生成质量优:可生成高分辨率、高保真度的样本(如 Stable Diffusion 生成的艺术作品)。灵活性强:支持文本到图像、图像到图像等多模态生成任务。
  • ACT、SmolVLA、Pi0又是总结
    一、不同芯片对算子支持的核心差异不同芯片架构因设计目标和硬件特性不同,对神经网络算子的支持范围、性能表现和能效比存在显著差异1. GPU(图形处理单元)支持算子范围:覆盖全类型算子,从基础的卷积、池化、激活到复杂的 Transformer 注意力机制、LSTM/GRU 等递归网络,以及自定义算子。例如,NVIDIA GPU 通过 cuDNN 库对卷积、矩阵乘加(GEMM)等算子提供高度优化,并支持动态调整计算模式(如 Winograd 算法加速卷积)。实现方式:依赖 CUDA 生态,通过并行计算核心(如 Tensor Core)加速低精度(FP16/INT8)运算,适合数据密集型任务(如模型训练)。优势场景:复杂模型(如大语言模型、多模态模型)的训练与推理,需灵活支持动态图和复杂控制流。局限性:能效比低(TOPS/W),端侧设备(如手机、机器人)受功耗限制难以部署。2. NPU(神经网络处理器)支持算子范围:聚焦卷积、池化、全连接、量化等主流算子,对 Transformer 注意力机制的支持因厂商而异(如华为昇腾 NPU 原生支持 MultiHeadAttention,而早期瑞芯微 NPU 需回退 CPU)。实现方式:采用数据流(Dataflow)架构,通过片上 SRAM 减少外部 DRAM 访问,算子融合技术(如 Conv+BN+ReLU 合并)提升计算效率。例如,Rockchip NPU 将卷积拆分为 16×16 小块并行计算,支持 INT8/INT4 低精度运算。优势场景:端侧推理(如手机拍照 AI、机器人视觉),强调高吞吐量和低功耗。局限性:对复杂算子(如动态 RNN、可变形卷积)支持有限,需依赖编译器替换或 CPU 辅助。3. FPGA(现场可编程门阵列)支持算子范围:通过硬件重构支持任意算子,但需手动优化或依赖 HLS(高层次综合)工具生成代码。例如,可定制实现特定模型的算子图,如 YOLOv8 的 Anchor 生成层。实现方式:通过可重构逻辑单元(如查找表 LUT 和触发器 FF)实现算子,灵活性高但开发周期长。优势场景:需快速迭代的算法原型验证,或对实时性要求极高的场景(如自动驾驶边缘计算)。局限性:能效比介于 GPU 和 ASIC 之间,量产成本高,不适合大规模部署。4. ASIC(专用集成电路)支持算子范围:仅支持预定义的特定算子(如 Transformer 编码器、ResNet 残差块),需根据模型结构定制硬件电路。实现方式:通过 ASIC 设计工具(如 Cadence、Synopsys)优化电路布局,实现极致性能(如 Google TPU 的矩阵乘法器)。优势场景:超大规模推理(如云端搜索引擎)或特定领域任务(如比特币挖矿),追求最高能效比。局限性:开发成本高昂,灵活性极低,模型迭代需重新设计芯片。5. MCU(微控制器)支持算子范围:仅支持极简算子(如 ReLU、平均池化),需通过模型量化(如 INT8/INT4)和轻量化(如 MobileNetV3)适配。实现方式:依赖软件库(如 CMSIS-NN)在 ARM Cortex-M 内核上进行定点运算,算力极低(通常 < 1TOPS)。优势场景:传感器融合、简单控制逻辑(如家电、工业物联网终端)。局限性:无法处理复杂模型,需与其他芯片(如 NPU)协同工作。6. RISC-V 处理器支持算子范围:基础算子需通过扩展指令集(如 RVV 向量扩展)实现,复杂算子依赖软件优化或异构加速(如外挂 NPU)。实现方式:开源生态逐步完善,可通过 OpenPI 等框架实现算子在 RISC-V 上的轻量化部署。优势场景:边缘设备的低成本、定制化需求(如智能家居、无人机)。局限性:算力和生态成熟度远不及 ARM/x86,复杂模型需依赖边缘 - 云协同推理。二、ACT、SmolVLA、Pi0 的核心优势对比1. ACT(基于 Transformer 的动作分块模型)技术路径:采用 Transformer 架构,将长动作序列分解为固定长度的块(Chunk),通过自注意力机制捕捉块内和块间依赖,支持时序连贯的动作生成。核心优势:长序列处理能力:通过分块将计算复杂度从 O (T²) 降至 O (K・L²)(T 为总时间步,K 为块数,L 为块长),适合机器人搬运、装配等长时序任务。可解释性强:分块生成动作,便于分析每个阶段的决策逻辑,降低调试难度。硬件兼容性:依赖 PyTorch/TensorFlow 等框架,可在 GPU/CPU 上运行,适配性广。典型应用:工业机器人的多阶段任务规划(如汽车装配线的零件抓取→焊接→质检流程)。2. SmolVLA(轻量级视觉 - 语言 - 动作模型)技术路径:结合预训练视觉 - 语言模型(SmolVLM-2)和流匹配动作专家,采用异步推理架构解耦感知与动作生成,支持多模态输入(RGB 图像、语言指令)。核心优势:轻量化设计:仅 450M 参数,可在消费级 GPU(如 RTX 3060)甚至 MacBook 上运行,显著降低部署成本。实时响应能力:异步推理将任务完成时间缩短 30%,控制频率提升至 30Hz,适合动态环境下的快速决策(如机器人避障、分拣)。社区驱动生态:基于 LeRobot 社区数据集训练,覆盖多样化真实场景(如家庭服务、实验室操作),泛化能力强。典型应用:低成本机械臂(如 SO-100/SO-101)的实时控制,家庭服务机器人的多指令执行(如 “打开冰箱并取出饮料”)。3. Pi0(通用视觉 - 语言 - 动作流模型)技术路径:基于预训练 VLM(PaliGemma)和流匹配(Flow Matching)技术,生成高频率(50Hz)连续动作序列,支持多机器人平台(单臂、双臂、移动机械臂)。核心优势:高精度动作生成:通过流匹配模型捕捉复杂动作分布,在叠衣服、抽屉整理等精细任务中成功率显著高于 ACT 和 SmolVLA。跨模态推理能力:融合视觉、语言和机器人状态信息,支持自然语言指令(如 “将红色杯子放到蓝色盘子旁边”)的端到端执行。硬件适配性:通过 OpenPI 框架优化算子融合(如 Conv+BN+GELU 合并),在 NVIDIA Jetson AGX 等边缘设备上实现 1.8 倍加速。典型应用:工业场景的高精度操作(如 SMT 料盘出库、汽车零部件装配),以及需要多步骤规划的复杂任务(如组装家具)。三、模型与芯片的适配策略ACT:优先选择 GPU 或高性能 CPU,利用 Transformer 的并行计算能力处理长序列动作;若需端侧部署,可通过模型量化(INT8)和剪枝适配边缘 NPU(如 Jetson AGX Orin)。SmolVLA:推荐在低成本边缘设备(如树莓派 4B+)上运行,依赖异步推理和轻量架构实现实时控制;若需更高性能,可迁移至 NVIDIA Jetson Nano(含 GPU 加速)。Pi0:需高端 GPU(如 RTX 4090)或专用 NPU(如 NVIDIA Jetson Thor)支持,利用流匹配的高计算密度特性实现高频率动作生成;工业场景可结合 FPGA 进行算子定制优化。
  • 一文带你了解LLM与VLM的区别
    LLM(大语言模型)与VLM(视觉语言模型)是人工智能领域两类核心模型,其本质区别在于​​模态处理能力​​与​​应用场景定位​​的不同。​​一、核心定义:单模态文本处理 vs 多模态视觉-语言融合​​LLM是​​以文本为核心​​的大规模预训练模型,通过学习海量文本数据(如书籍、网页、对话),掌握语言的语法规律、语义理解与生成能力,擅长处理纯文本任务(如文本生成、问答、翻译)。其本质是“​​文本世界的语言专家​​”,但无法直接理解视觉信息(如图像、视频)。 VLM是​​融合视觉与语言的多模态模型​​,通过结合视觉编码器(如ViT)与文本编码器(如Transformer),实现图像/视频与文本的跨模态理解与生成。其本质是“​​能看懂世界的文本专家​​”,既能处理纯文本任务,也能处理视觉相关任务(如图像描述、视觉问答、图文检索)。​​二、架构设计:单一文本流 vs 双模态融合​​LLM的架构以​​单一Transformer编码器/解码器​​为核心,输入为文本token(如单词、子词),通过自注意力机制(Self-Attention)捕捉文本中的长距离依赖关系,输出为文本token。例如,GPT系列采用自回归Transformer(Decoder-only),实现文本生成;BERT采用双向Transformer(Encoder-only),实现文本理解。 VLM的架构采用​​双编码器+跨模态融合​​设计:​​视觉编码器​​:处理图像/视频,提取视觉特征(如ViT将图像分块为token,通过Transformer编码);​​文本编码器​​:处理文本,提取文本特征(如与LLM相同的Transformer结构);​​跨模态融合模块​​:通过跨模态注意力(Cross-Modal Attention)或特征对齐(如CLIP的对比学习),将视觉特征与文本特征关联,实现“视觉-语言”的语义对齐。例如,VLM在处理“图像描述”任务时,视觉编码器提取图像中的物体(如“猫”)、颜色(如“橙色”)等特征,文本编码器生成描述文本,融合模块将两者关联,输出准确的描述。​​三、训练逻辑:文本数据驱动 vs 视觉-语言对齐驱动​​LLM的训练以​​文本数据​​为核心,通过​​预训练+微调​​模式提升性能:​​预训练​​:在大规模无标注文本(如BooksCorpus、WebText)上进行自监督学习(如GPT的自回归语言建模、BERT的掩码语言建模),学习语言的通用规律;​​微调​​:在特定任务(如情感分析、机器翻译)的标注数据上调整模型参数,适配下游任务。VLM的训练以​​视觉-语言对数据​​(如图像-文本对、视频-字幕对)为核心,强调​​跨模态对齐​​:​​预训练​​:通过对比学习(如CLIP)或生成学习(如BLIP),将视觉特征与文本特征对齐(如“图像中的猫”对应“cat”),建立视觉与语言的语义关联;​​微调​​:在视觉-语言任务(如视觉问答、图像描述)的标注数据上优化,提升跨模态理解与生成能力。​​四、应用场景:纯文本任务 vs 视觉-语言交互任务​​LLM的应用场景​​局限于纯文本领域​​,主要包括:文本生成(如文章写作、代码生成、对话机器人);文本理解(如情感分析、实体识别、问答系统);文本推理(如逻辑题解答、常识推理)。VLM的应用场景​​覆盖视觉与语言的交互领域​​,主要包括:​​视觉理解​​:图像描述(如“这张图片里有一只橙色的猫”)、视觉问答(如“图片中的猫是什么颜色?”)、目标检测(如“识别图片中的汽车”);​​视觉生成​​:根据文本生成图像(如Midjourney、Stable Diffusion)、根据图像生成文本(如图像字幕);​​多模态对话​​:结合图像与文本的对话(如“帮我描述这张旅游照片”)。​​五、总结一下下:LLM是基础,VLM是扩展​​LLM是​​文本处理的基础模型​​,为VLM提供了语言理解与生成的核心能力;VLM是​​LLM的扩展​​,通过融合视觉模块,将LLM的能力从“文本世界”延伸至“视觉世界”,实现“能看懂、能生成”的多模态交互。两者的关系可类比“​​大脑​​(LLM)与​​眼睛​​(VLM的视觉模块)”:LLM负责思考与表达,VLM负责观察与理解,共同构成更完整的人工智能系统。 ​
  • 常见的视觉编码器和语言模型融合
    视觉编码器与语言模型的融合是多模态人工智能的核心方向,旨在实现视觉信息与语言信息的深度交互与协同理解。其融合机制涵盖​​架构设计、特征融合策略、训练方法​​三大核心维度​​一、核心架构设计:从“模块化拼接”到“原生融合”​​视觉编码器(如ViT、CLIP)与语言模型(如LLaMA、GPT)的融合架构经历了从“模块化拼接”到“原生融合”的演进,核心目标是平衡​​模态独立性​​与​​交互深度​​。1. ​​经典三段式架构:模块化与兼容性优先​​早期融合方案采用“视觉编码器+投影层+语言解码器”的模块化设计,保留视觉编码器与语言模型的独立性,通过投影层对齐两者的语义空间。​​视觉编码器​​:负责将图像/视频转换为特征向量(如CLIP的ViT编码器、ViT-B/32),提取视觉语义(如物体、场景、动作)。​​投影层​​:通过线性变换或MLP将视觉特征映射到语言模型的隐空间(如LLaMA的词嵌入空间),解决模态异质性问题。​​语言解码器​​:将投影后的视觉特征与文本嵌入拼接,输入语言模型生成回答(如视觉问答、图像字幕)。 示例:中,研究者将CLIP视觉编码器与冻结的BLOOM语言模型结合,通过投影层融合特征,实现了零样本图像字幕生成。2. ​​原生融合架构:端到端与高效性提升​​随着模型规模的扩大,模块化架构的计算冗余问题凸显。最新研究(如商汤“日日新V6.5”、GPT-4o)采用​​原生融合架构​​,将视觉编码器与语言模型统一训练,实现模态信息的​​端到端交互​​。​​商汤“日日新V6.5”​​:通过“融合模态数据合成”与“融合任务增强训练”,将图像、视频、语音、文本等多模态数据统一编码,实现“看”与“想”的深度融合。其核心创新是​​图文交错思维链​​,将图像特征与文本特征交替输入模型,模拟人类“形象思维+逻辑思维”的协同过程,推理性能超越Gemini 2.5 Pro、Claude 4-Sonnet。​​GPT-4o​​:采用类似CLIP的对齐机制,将文本特征作为条件注入图像生成模块(如扩散模型)。当处理视觉输入时,GPT-4o触发图像生成模块,以对齐的文本特征为条件生成图像(如吉卜力风格照片),实现“文本-图像”的双向生成。​​二、特征融合策略:从“简单拼接”到“分层交互”​​特征融合是视觉与语言协同的关键,最新研究聚焦于​​分层特征选择​​与​​动态交互机制​​,以提升特征利用效率。1. ​​多层视觉特征融合:捕捉不同粒度的语义​​视觉编码器的不同层提取的特征具有不同的粒度(浅层:边缘、纹理;深层:物体、场景),单一层的特征往往无法覆盖所有任务需求。最新研究(如2025年CVPR论文)系统研究了多层视觉特征的融合策略,得出以下结论:​​最优层选择​​:从​​起始、中间、结尾​​三个阶段各选择一层特征(如ViT的第1、6、12层),融合后的特征能覆盖不同粒度的语义,泛化性能最优。​​融合方式​​:​​外部直接融合​​(在输入阶段将多层视觉特征与文本特征拼接)优于内部融合(在语言模型中间层插入视觉特征),能持续提升模型性能且稳定。2. ​​动态交互机制:自适应调整融合权重​​为了让视觉与语言特征在推理过程中动态交互,研究者提出了​​交叉注意力机制​​与​​门控机制​​:​​交叉注意力​​:在语言模型的自注意力层中加入视觉特征的注意力头,使语言模型能动态关注视觉特征中的关键区域(如图像中的物体位置)。例如,中,GPT-4o的图像生成模块通过交叉注意力将文本特征注入扩散模型,指导图像生成的区域细节。​​门控机制​​:通过可学习的门控参数(如sigmoid函数)调整视觉与语言特征的融合权重,避免无关信息干扰。例如,中,视觉适配器通过MLP将视觉特征映射为视觉标记,再通过门控机制与文本标记融合,提升多模态输入的处理效率。​​三、训练方法:从“对比学习”到“多任务协同”​​训练方法是融合模型的“催化剂”,最新研究采用​​多任务协同训练​​,结合​​对比学习、生成式预训练、指令微调​​,提升模型的泛化能力与任务适应性。1. ​​对比学习:建立跨模态语义对齐​​对比学习是视觉与语言融合的基础,通过最大化匹配图文对的相似度、最小化不匹配对的相似度,建立跨模态语义空间的对齐。​​经典方法​​:CLIP采用双编码器(视觉编码器+文本编码器)与全局对比损失,将4亿图文对映射到统一语义空间,实现“图像-文本”的语义对齐。​​改进方法​​:FLAVA引入​​全局对比损失(GC)​​与​​掩码多模态建模(MMM)​​,不仅对齐图文对的相似度,还通过掩码图像块或文本token,让模型学习模态内的上下文信息,提升模型的鲁棒性。2. ​​生成式预训练:提升多模态生成能力​​生成式预训练(如扩散模型、自回归模型)用于提升模型的多模态生成能力(如图像生成、视频描述)。​​图像生成​​:DALL·E 2采用“CLIP先验+扩散解码器”的生成式架构,将文本特征通过先验模型转换为图像特征,再由扩散模型生成图像。GPT-4o继承了这一思路,通过文本特征引导扩散模型生成符合语义的图像。​​视频描述​​:商汤“日日新V6”支持10分钟中长视频的深度解析,通过生成式预训练让模型理解视频中的帧序列与动作,生成准确的视频描述与解说。3. ​​指令微调:适应下游任务需求​​指令微调通过人工标注的指令数据(如“描述这张图片的内容”“回答关于这张图片的问题”),让模型适应下游任务(如视觉问答、图像字幕)。​​数据增强​​:商汤“日日新V6.5”采用“融合模态数据合成”,生成图文交错、视频-文本配对的指令数据,提升模型的多模态推理能力。​​任务增强​​:通过“多任务协同训练”(如视觉问答+图像分类+文本生成),让模型掌握多模态任务的共性特征,提升泛化能力。​​四、最新进展:从“单一模态”到“全模态”​​2025年以来,视觉与语言融合的研究向​​全模态​​(图像、视频、语音、文本)演进,核心目标是实现“多模态信息的无缝整合”。1. ​​全模态融合架构​​商汤“日日新V6.5”采用​​全模态基座大模型​​,将图像、视频、语音、文本等多模态数据统一编码,实现“看”(图像/视频)、“听”(语音)、“想”(文本)的深度融合。其核心创新是​​多模态思维链​​,将不同模态的特征交替输入模型,模拟人类“综合感知-逻辑推理”的过程,推理性能超越Gemini 2.5 Pro、Claude 4-Sonnet。2. ​​实时多模态交互​​随着边缘计算的发展,实时多模态交互成为研究热点。例如,中,VITA-1.5框架采用​​视觉适配器+音频适配器​​,将视觉与音频特征映射为适合语言模型处理的标记,实现实时视觉语音交互(如视频通话中的表情识别与语音回应)。​​五、总结一下下:融合的核心逻辑与未来方向​​视觉编码器与语言模型的融合​​核心逻辑​​是:通过​​架构设计​​实现模态独立性与交互深度的平衡,通过​​特征融合策略​​捕捉不同粒度的语义,通过​​训练方法​​建立跨模态语义对齐与任务适应性。 ​​未来方向​​:​​更高效的全模态融合​​:降低计算冗余,实现边缘设备的实时多模态处理;​​更精准的语义对齐​​:针对特定领域(如医疗、工业),建立更精准的跨模态语义空间;​​更类人的推理能力​​:模拟人类的“形象思维+逻辑思维”,提升多模态推理的深度与准确性。
总条数:1680 到第
上滑加载中