开发者_标签_开发者

博客(4.8k)
视频(74)
论坛(0)
云声(1.1k)
代码示例(0)

扩散模型迭代优化机器人动作

扩散模型通过去噪扩散机制、迭代优化策略、多模态引导及实时性加速等核心设计，实现对机器人动作的持续优化。其迭代优化过程贯穿动作生成、环境适应、任务执行全流程，结合扩散模型的概率生成特性与机器人控制的实时性要求，为机器人提供了灵活、鲁棒的动作优化方案。一、核心机制：去噪扩散与迭代优化扩散模型的核心思想是通过逐步去噪生成符合任务要求的动作序列，其迭代优化过程可分为正向扩散（添加噪声破坏动作序列）与反向扩散（从噪声中恢复有效动作）两个阶段。在机器人动作优化中，反向扩散是关键：正向扩散：对干净的机器人动作序列（如工业机械臂的抓取轨迹、移动机器人的导航路径）逐步添加高斯噪声，直至序列变为纯噪声。此步骤将任务相关的动作分布转化为噪声分布，为反向扩散提供学习目标。反向扩散：训练一个去噪网络（如Transformer或U-Net），以噪声动作序列、任务条件（如环境感知、目标位姿）及时间步为输入，预测添加的噪声并逐步恢复干净动作。在迭代过程中，去噪网络通过梯度下降优化，使生成的动作为任务要求（如避障、精准抓取）的概率最大化。比如哈，工业机器人路径规划中，扩散模型将“从起点到终点的无碰撞路径”转化为生成任务，通过反向扩散逐步优化路径，确保路径符合最短距离、最小碰撞风险等任务目标。二、迭代优化的具体实现：从“生成”到“反馈”扩散模型的迭代优化并非一次性生成动作，而是结合任务反馈持续调整，具体可分为以下环节：条件引导：任务信息的注入反向扩散过程中，任务条件（如环境点云、目标位姿、语言指令）作为条件输入去噪网络，引导动作生成的方向。例如：工业机器人：将障碍物点云编码为条件，引导路径避开障碍物；移动机器人导航：将目标位姿（如GPS坐标）与实时感知（如激光雷达）结合作为条件，引导局部轨迹优化；4D世界模型（如EnerVerse）：将任务指令（如“将杯子放在桌子上”）与未来空间预测（如场景变化）结合作为条件，引导动作序列生成。迭代去噪：逐步细化动作反向扩散通过多步迭代（如10-100步）逐步去除噪声，每一步都根据去噪网络的预测调整动作序列。例如，在机器人抓取任务中，初始噪声序列可能是一组随机的关节角度，通过迭代去噪，逐步细化为“接近物体→抓取→提升→放置”的精准动作序列。反馈调整：适应环境变化扩散模型的迭代优化支持在线反馈，即当环境发生变化（如新增障碍物、目标位姿偏移）时，重新输入新的条件（如更新后的点云、目标位姿），通过反向扩散快速调整动作序列。例如，移动机器人在导航过程中遇到突然出现的障碍物，扩散模型可根据新的激光雷达数据，迭代优化路径，绕过障碍物。三、应用场景：从工业到服务的泛化优化扩散模型的迭代优化机制适用于多场景、多任务的机器人动作优化，以下是具体应用案例：工业机器人：路径规划与避障工业机器人路径规划需解决多障碍、高精度问题，扩散模型通过点云编码（将障碍物环境转化为潜在空间）与Transformer扩散模型（建模路径的概率分布），实现无碰撞路径的迭代优化。例如，某工业机器人路径规划系统中，扩散模型将障碍物点云编码为潜在向量，通过反向扩散生成从起点到终点的路径，每一步都根据点云数据调整路径，确保路径避开障碍物且长度最短。移动机器人：导航与动态避障移动机器人导航需处理动态环境（如行人、车辆），扩散模型通过分层扩散策略（局部轨迹优化+全局规划）实现实时避障。例如，KiteRunner导航系统中，全局规划（基于无人机正射影像）提供宏观路径，局部扩散模型（基于点云与视觉）迭代优化局部轨迹，确保机器人在复杂环境中（如校园、仓库）实时避障。4D世界模型：长时程任务规划长时程任务（如家庭服务中的“打扫房间”）需预测未来场景变化，扩散模型通过自回归扩散（逐步生成未来空间）与稀疏记忆机制（降低计算开销），实现长时程动作的迭代优化。例如，EnerVerse模型通过自回归扩散生成未来具身空间（如房间内的物体移动），结合稀疏记忆队列（存储历史帧），迭代优化机器人的动作序列（如“拿扫帚→扫地→倒垃圾”），确保动作与场景变化一致。服务机器人：人机协作与灵巧操作服务机器人（如人形机器人）需处理多模态任务（如抓取、装配），扩散模型通过多模态引导（视觉+语言）实现灵巧操作的迭代优化。例如，VPP（Video Prediction Policy）模型通过视频扩散模型学习人类动作（如抓取杯子），结合语言指令（如“将杯子放在桌子上”），迭代优化机器人的动作序列，实现精准抓取与装配。四、最新进展：实时性与泛化性的提升为了解决扩散模型推理速度慢的问题，研究者提出了多种加速技术，进一步提升迭代优化的实时性：无分类器捷径（Classifier-Free Guidance）：通过将任务条件与噪声序列结合，减少迭代次数（如从100步减少到10步），同时保持动作质量。例如，CF-SDP模型通过无分类器捷径，将扩散推理速度提升5倍，实现实时动作生成。混合扩散监督（Mixed Diffusion Supervision）：结合显式策略监督（如速度、加速度约束）与扩散模型（如轨迹分布建模），提升生成动作的实时性与准确性。例如，DiffE2E自动驾驶框架通过混合扩散监督，实现实时轨迹生成，满足自动驾驶的实时性要求。视频扩散模型的中间表征：提取视频扩散模型的中间层表征（如帧间运动），单步预测未来动作，提升推理速度（如<150ms）。例如，VPP模型通过提取视频中间表征，实现高频预测（6-10Hz）与执行（>50Hz控制频率），满足实时动作要求。五、总结：迭代优化的优势与未来方向扩散模型的迭代优化机制为机器人动作优化提供了灵活、鲁棒、实时的解决方案，他的核心优势在于：多模态支持：可处理视觉、语言、点云等多模态任务条件，适应复杂场景；实时性：通过加速技术（如无分类器捷径、视频中间表征），满足机器人实时动作要求；泛化性：通过大规模数据训练（如互联网视频、机器人真机数据），泛化至不同机器人本体（如人形、机械臂）与任务（如抓取、导航）。未来，扩散模型的迭代优化将向更高效的加速技术（如Rectified Flow、DDIM）、更精准的条件引导（如3D Flow Diffusion）、更泛化的模型（如跨本体学习）方向发展，进一步提升机器人在复杂环境中的动作优化能力。扩散模型通过去噪扩散机制与迭代优化策略，实现了机器人动作的持续优化，适用于工业、移动、服务等多种场景，为机器人的智能化提供了关键支撑。

Jack20 发表于2025-10-29 10:55:15 2025-10-29 10:55:15 最后回复 Jack20 0
16 0

云存储开发者
不同芯片对AI算子支持的差异大比较

不同芯片对AI算子支持的差异，本质是架构设计目标与AI任务需求的匹配度差异。从GPU、TPU、NPU、FPGA到ASIC，各类芯片通过架构定制化、算力优化、精度适配及生态协同，形成了各具特色的AI算子支持能力一、架构设计：从“通用”到“专用”的算子支持分化AI算子的核心是矩阵运算（如GEMM，通用矩阵乘）与张量操作（如卷积、 softmax），不同芯片的架构设计直接决定了这些算子的执行效率与支持能力：GPU（图形处理器）：原本为图形渲染设计，但其大规模并行计算架构（数千个CUDA核心）天然适配AI的矩阵运算需求。GPU通过Tensor Core（张量核心）专门优化矩阵乘加（GEMM）算子，支持FP16、BF16、INT8等混合精度，是当前通用AI训练的主流选择（如英伟达H100、A100）。例如，英伟达H100的Tensor Core支持FP8精度，GEMM算力可达10 PetaOPS（每秒10^15次操作），能高效处理大模型训练中的海量矩阵运算。TPU（张量处理单元）：谷歌专为机器学习设计的ASIC，采用脉动阵列（Systolic Array）架构，将内存与计算单元紧密耦合，减少数据搬运延迟。TPU的核心算子是矩阵乘法（针对低精度优化），支持BF16、INT8等精度，尤其适合大规模训练（如谷歌TPU v4）。例如，TPU v4的脉动阵列支持BF16精度，矩阵乘法算力可达275 TOPS（每秒万亿次操作），在Transformer模型的注意力机制算子（如QKV投影、Softmax）中表现优异。NPU（神经处理单元）：为神经网络推理优化的专用芯片，采用数据流架构（如华为昇腾的达芬奇架构），将神经网络的核心算子（卷积、全连接、激活函数）固化到硬件中。NPU的算子支持以INT8/INT4低精度为主，强调能效比，适合边缘/端侧推理（如华为昇腾310、寒武纪思元590）。例如，华为昇腾310的NPU支持INT8精度，卷积算力可达16 TOPS，能效比（TOPS/W）较GPU高3-5倍，适合智能摄像头的实时目标检测。FPGA（现场可编程门阵列）：可重构的硬件电路，通过编程配置逻辑门实现AI算子。FPGA的算子支持灵活性极高，可针对特定模型（如CNN、RNN）定制卷积、循环层算子，但延迟较高（相对于ASIC），适合小批量、定制化推理（如金融风控、图像识别）。例如，赛灵思（Xilinx）的Alveo U50 FPGA支持FP16、INT8精度，可通过Vitis AI工具链定制卷积算子，延迟较GPU低20%-30%，但算力仅为GPU的1/10。ASIC（专用集成电路）：完全定制的芯片，针对特定AI任务（如自动驾驶、语音识别）优化，算子支持极致高效但通用性差。例如，特斯拉FSD芯片的NPU支持INT8精度的卷积、全连接算子，专为自动驾驶的视觉感知任务设计；谷歌Edge TPU的矩阵乘法算子针对移动设备的低功耗需求优化。二、算力与精度：AI算子支持的“效率-精度”权衡不同芯片的算力密度（TOPS/mm²）与精度支持（FP32/FP16/BF16/INT8）直接决定了其对AI算子的支持能力：算力密度： ASIC（如华为昇腾910B、寒武纪思元590）的算力密度最高（>10 TOPS/mm²），因为其架构专为AI算子定制，无冗余设计；GPU（如英伟达H100）的算力密度次之（~5 TOPS/mm²），但通过多核心并行实现高总算力；FPGA的算力密度最低（<1 TOPS/mm²），因为其可重构逻辑门的效率较低。例如，华为昇腾910B的FP16稠密算力达320 TFLOPS（万亿次操作/秒），算力密度约12 TOPS/mm²，接近英伟达A100的312 TFLOPS。精度支持： AI模型对精度的要求逐渐降低（从FP32到INT8），不同芯片的精度支持能力差异显著：GPU：支持FP32、FP16、BF16、INT8等全精度，适合训练（需要高精度反向传播）；TPU：支持BF16、INT8等低精度，适合训练（谷歌大模型如PaLM均用TPU训练）；NPU/ASIC：支持INT8、INT4等低精度，适合推理（低精度足以满足实时性要求，且能效比更高）；FPGA：支持FP16、INT8等精度，可通过编程调整，但低精度算子的效率低于ASIC。比如哈，咱们华为昇腾910B的INT8算力达640 TOPS，是FP16算力的2倍，适合大模型推理（如LLaMA-13B的token生成）；而英伟达H100的FP8算力达10 PetaOPS，适合大模型训练（如GPT-4的参数更新）。三、生态兼容性：AI算子支持的“最后一公里”即使芯片的硬件算子性能优异，若软件生态不兼容（如不支持主流框架的算子），也无法被广泛应用。不同芯片的生态兼容性差异显著：GPU：生态最成熟，支持PyTorch、TensorFlow、CUDA等主流框架，算子库（如cuDNN、TensorRT）完善，开发者无需修改代码即可迁移模型（如英伟达的CUDA生态）。TPU：生态依赖谷歌的TensorFlow与JAX框架，算子库（如TPU Ops）仅支持谷歌生态，迁移成本高（如TPU v4仅支持TensorFlow的模型）。NPU/ASIC：生态正在完善，部分厂商通过开源框架（如华为的MindSpore、寒武纪的Cambricon NeuWare）支持主流模型（如ResNet、BERT），但算子覆盖度仍落后于GPU（如华为昇腾910B的算子覆盖度约90%，而GPU达99%）。FPGA：生态依赖厂商工具链（如Xilinx的Vitis AI、Intel的OpenVINO），算子支持需通过硬件描述语言（HDL）定制，开发成本高，适合专业开发者。四、典型芯片的AI算子支持对比一下下芯片类型典型型号架构算力（FP16/INT8）精度支持生态兼容性核心应用场景GPU英伟达H100Ampere450 TFLOPS / 900 TOPSFP32/FP16/BF16/INT8PyTorch/TensorFlow/CUDA大模型训练、科学计算TPU谷歌TPU v4脉动阵列275 TOPS（BF16）BF16/INT8TensorFlow/JAX大模型训练、谷歌云服务NPU华为昇腾910B达芬奇架构320 TFLOPS / 640 TOPSFP16/INT8MindSpore/PyTorch大模型训练、推理ASIC寒武纪思元590MLUv03256 TOPS（INT8）INT8/INT4Cambricon NeuWare边缘推理、数据中心FPGA赛灵思Alveo U50可编程逻辑门10 TFLOPS（FP16）FP16/INT8Vitis AI定制化推理、金融风控五、总结一下下：不同芯片的AI算子支持优先级GPU：优先支持通用AI训练，算子覆盖度广、生态成熟，适合需要高精度、大规模并行的场景；TPU：优先支持大模型训练，低精度算子效率高，适合谷歌生态的大规模模型（如PaLM、Gemini）；NPU/ASIC：优先支持推理场景，低功耗、高能效比，适合边缘/端侧的实时推理（如智能设备、数据中心）；FPGA：优先支持定制化推理，灵活性高，适合小批量、特定模型的场景（如金融、医疗）。未来的小趋势：从“专用”到“通用”的融合随着AI模型的多样化（如多模态、大语言模型），芯片的AI算子支持正从“专用”向“通用”演进：GPU：通过Tensor Core与CUDA生态，扩展对多模态模型（如图像-文本）的支持；TPU：通过v5版本增加对FP8精度的支持，提升大模型训练的效率；NPU/ASIC：通过开源框架（如MindSpore、PyTorch）扩展算子覆盖度，向通用AI推理演进；FPGA：通过高层次综合（HLS）工具，降低定制化算子的开发门槛。总之，不同芯片对AI算子的支持差异，本质是架构设计与AI任务需求的匹配。开发者需根据场景需求（训练/推理）、精度要求（FP32/INT8）、生态兼容性（框架支持）选择合适的芯片，以实现最优的AI性能。

Jack20 发表于2025-10-29 10:46:14 2025-10-29 10:46:14 最后回复 Jack20 2025-10-29 10:46:14
51 0

云存储开发者
常用数据库优化方法总结

当数据库表数据量达千万级时，查询性能下降的核心原因通常是磁盘 IO 开销过大、查询扫描范围过广、数据处理链路冗余，除添加索引外，需从表结构设计、查询逻辑、存储引擎、架构扩展、运维优化五个维度切入，通过 “减少数据扫描量、降低 IO 成本、分散压力” 提升性能一、表结构优化：从源头减少数据冗余与 IO 开销表结构设计不合理（如字段冗余、类型不当）会导致单条记录存储体积过大，千万级数据累积后会显著增加磁盘 IO 次数，需针对性优化：1. 字段类型精细化：减小单条记录存储体积用 “最小适用类型” 替代冗余类型：例：存储用户 ID 时，用BIGINT（8 字节）而非VARCHAR(32)（最多 32 字节）；存储日期用DATETIME（8 字节）而非VARCHAR(20)；存储状态（如 0/1/2）用TINYINT（1 字节）而非INT（4 字节）。千万级表中，单字段类型优化可减少30%-50% 的单表存储体积，直接降低磁盘 IO 压力。避免大字段（TEXT/BLOB）与主表耦合：若表含大文本（如商品详情、日志内容），需将其拆分到附属表（如order_main存订单核心信息，order_log存订单日志 TEXT 字段），主表仅保留关联 ID。查询主表时无需加载大字段，减少 IO 耗时；需大字段时再通过关联查询获取。2. 分区表：将 “大表” 拆为 “小表”，缩小查询范围千万级表的全表扫描（即使走索引）仍需遍历大量数据，通过分区表按规则将数据拆分到多个物理子表，查询时仅扫描目标分区，大幅减少扫描量：分区类型选择（以 MySQL 为例）：时间维度：订单表（order）按create_time分 “月分区”，查询 “2024 年 3 月订单” 仅扫描p202403分区，而非全表；范围维度：用户表（user）按user_id分 “范围分区”（如user_id < 100万为 p1，100万-200万为 p2），查询特定 ID 段用户仅扫对应分区；哈希分区：按user_id % 8分 8 个分区，均匀分散数据，适合无明显查询维度的场景。注意：分区字段需与查询条件匹配（如查询常用create_time，则按create_time分区），否则仍可能扫描所有分区。二、查询 SQL 优化：避免 “低效扫描” 与 “冗余计算”多数千万级表的性能问题并非数据量本身，而是查询语句未充分利用资源，导致 “做无用功”，需聚焦 “减少扫描行数、简化计算逻辑”：1. 避免 “全表扫描触发条件”，强制走高效路径禁用SELECT *，只查必要字段： SELECT *会读取所有字段（包括大字段），且可能导致 “回表查询”（若索引未覆盖所有字段）。例：查询用户姓名和手机号，用SELECT name, phone FROM user WHERE user_id=123而非SELECT *，减少 IO 数据量和回表次数。优化LIMIT分页：避免 “偏移量过大”：千万级表中，LIMIT 1000000, 10会先扫描前 1000010 条数据再丢弃前 1000000 条，效率极低。优化方案：用 “主键 / 索引有序性” 分页：SELECT id, name FROM user WHERE id > 1000000 LIMIT 10（依赖id索引，直接定位到 1000000 后的数据，扫描 10 条即可）；若无主键有序条件，用 “书签分页”（记录上一页最后一条数据的索引值，作为下一页查询条件）。2. 简化关联查询：减少 “表 join 次数” 与 “笛卡尔积风险”小表驱动大表：多表 join 时，让数据量小的表作为 “驱动表”（左表），减少外层循环次数。例：SELECT o.id FROM order o JOIN user u ON o.user_id=u.id，若user表（100 万行）比order表（1000 万行）小，确保user为驱动表（通过EXPLAIN查看type列，优先range/ref类型）。避免 “多表 join + 子查询嵌套”：复杂查询（如 3 张以上表 join + 子查询）会增加优化器计算成本，易生成低效执行计划。优化方案：将子查询改为 “临时表” 或 “CTE（公共表表达式）”，提前过滤数据；若业务允许，将部分关联逻辑迁移到应用层（如先查主表数据，再批量查关联表数据，减少数据库端计算）。三、存储引擎与数据库参数调优：最大化利用硬件资源千万级表对存储引擎的 “缓存效率”“IO 调度” 敏感，需通过参数调优让数据库更适配硬件性能（以 MySQL InnoDB 为例）：1. 存储引擎选择：优先 InnoDB，禁用 MyISAMInnoDB 支持行级锁、事务、缓冲池（Buffer Pool），千万级表的并发查询和写操作场景下，性能远优于 MyISAM（表级锁、无缓冲池）。需确保表引擎为 InnoDB：ALTER TABLE table_name ENGINE=InnoDB;2. 核心参数调优：聚焦 “内存缓存” 与 “IO 调度”InnoDB 缓冲池（innodb_buffer_pool_size）：缓冲池是 InnoDB 的核心缓存，用于缓存表数据和索引，命中率越高，磁盘 IO 越少。建议设置为物理内存的 50%-70%（如 16GB 内存设为 10GB），确保千万级表的热点数据能完全缓存到内存，避免频繁磁盘 IO。日志参数（innodb_log_file_size/innodb_log_buffer_size）：innodb_log_file_size：设置 InnoDB 重做日志文件大小（建议 256MB-4GB），过大会增加崩溃恢复时间，过小会导致频繁刷盘（日志满后触发 checkpoint，占用 IO）；innodb_log_buffer_size：日志缓冲区大小（建议 16MB-64MB），减少小事务的磁盘写次数。IO 调度参数（innodb_flush_neighbors）：机械硬盘（HDD）建议开启（=1，批量刷盘减少寻道时间），固态硬盘（SSD）建议关闭（=0，避免不必要的批量写，利用 SSD 随机 IO 优势）。四、架构扩展：分散 “单库单表” 压力当单库单表的千万级数据已达硬件瓶颈（如 CPU 100%、磁盘 IO 饱和），需通过 “分库分表、读写分离、缓存” 从架构层面分散压力：1. 分库分表：突破单库单表性能上限若分区表仍无法满足性能需求（如数据量达亿级，或单库 CPU/IO 耗尽），需进行水平分库分表（将数据按规则拆分到多个数据库 / 表）：水平分表：同一表的数据拆分到多个子表（如order_1-order_8），子表结构相同，按user_id % 8路由。千万级表拆分为 8 个表后，每个表仅 125 万行，查询效率显著提升；水平分库：多个分表分散到不同数据库实例（如db1存order_1-order_4，db2存order_5-order_8），避免单数据库实例的 CPU/IO 瓶颈。工具选择：用 Sharding-JDBC（应用层分库分表）或 MyCat（中间件分库分表），降低手动路由的复杂度。2. 读写分离：分散 “读压力”（读多写少场景）千万级表通常是 “读多写少”（如订单查询远多于下单），通过主从复制实现 “主库写、从库读”：主库：负责 INSERT/UPDATE/DELETE 等写操作；从库：1-3 个，通过主从复制同步主库数据，负责 SELECT 查询（如订单列表查询、历史数据统计）；路由：应用层通过中间件（如 MyCat、ProxySQL）自动将读请求分发到从库，写请求路由到主库，减少主库压力。注意：主从复制存在 “延迟”（通常毫秒级，大事务可能秒级），需避免 “写后立即读” 场景（如刚下单就查订单，可能读从库未同步的数据）。3. 缓存热点数据：减少数据库访问次数将高频查询的 “热点数据”（如首页商品列表、用户基本信息）缓存到Redis/Memcached，查询时先查缓存，未命中再查数据库，大幅减少数据库 IO：缓存策略：key 设计：用 “表名：主键：字段”（如user:123:name），避免 key 冲突；过期时间：根据数据更新频率设置（如商品信息 1 小时过期，用户余额 5 分钟过期），避免缓存 stale 数据；穿透防护：用 “布隆过滤器” 过滤不存在的 key（如恶意查询不存在的用户 ID），避免缓存穿透导致数据库压力骤增。五、运维优化：保障数据 “健康度” 与统计信息准确性千万级表的长期运行中，数据碎片、过时统计信息会导致性能缓慢退化，需定期运维：1. 清理数据碎片：优化磁盘存储结构频繁的 INSERT/DELETE 会导致 InnoDB 表产生 “数据碎片”（如页内空闲空间碎片化，索引页不连续），增加磁盘 IO 次数。需定期优化表：MySQL：ALTER TABLE table_name ENGINE=InnoDB;（重建表，整理碎片，需锁表，建议业务低峰期执行）；PostgreSQL：VACUUM ANALYZE table_name;（清理死元组，更新统计信息）。2. 更新统计信息：确保优化器生成 “最优执行计划”数据库优化器依赖 “统计信息”（如字段值分布、索引选择性）选择执行计划，若统计信息过时（如数据大量插入后未更新），优化器可能选择低效路径（如走全表扫描而非索引）。需定期更新统计信息：MySQL：ANALYZE TABLE table_name;（非锁表，可在线执行，建议每天一次）；Oracle：DBMS_STATS.GATHER_TABLE_STATS('SCHEMA_NAME', 'TABLE_NAME');。总结：优化优先级与核心逻辑千万级表的优化需遵循 “从易到难、从成本低到高” 的优先级：先优化查询 SQL（无成本，见效快，如改SELECT *、优化LIMIT）；再优化表结构（如字段类型、分区表，成本低，影响范围小）；接着调优数据库参数（利用现有硬件资源，无需额外成本）；最后考虑架构扩展（分库分表、读写分离，需额外硬件 / 中间件成本，适合性能瓶颈已达硬件上限的场景）。核心逻辑始终是：减少需要处理的数据量（拆分、过滤）、降低数据读取成本（缓存、IO 优化）、分散处理压力（架构扩展）。阶段技术方案适用场景初级优化索引优化、SQL调优、缓存数据量500万-2000万中级优化垂直拆分、读写分离、冷热分离数据量2000万-1亿高级优化水平分库分表、分布式中间件、列存数据量1亿-10亿终极方案多活架构、湖仓一体、HTAP数据库超10亿级，复杂分析场景

Jack20 发表于2025-10-29 10:35:03 2025-10-29 10:35:03 最后回复 Jack20 0
45 0

云存储开发者
Redis Cluster在CAP中的权衡及机制体现

Redis Cluster作为分布式缓存系统，其设计核心目标是高可用性（Availability）与分区容忍性（Partition Tolerance），同时通过最终一致性妥协，实现对缓存场景的最优适配。一、Redis Cluster在CAP中的权衡逻辑根据CAP定理，分布式系统无法同时满足一致性（Consistency）、可用性（Availability）、分区容忍性（Partition Tolerance）三者，必须牺牲其一。Redis Cluster的选择是：优先保障可用性（A）：通过主从复制、自动故障转移、无中心化架构确保节点故障时服务不中断；必须满足分区容忍性（P）：作为分布式系统，网络分区是必然场景，Redis Cluster通过Gossip协议（节点间状态同步）、哈希槽分区（数据分散存储）容忍分区；妥协一致性（C）：采用异步复制（主节点写操作后立即返回，从节点异步同步），接受短暂数据不一致（最终一致性），以换取高可用性。这种权衡符合缓存场景的核心需求——快速响应请求，即使数据存在短暂延迟，也不会影响业务逻辑（如商品列表、会话信息等）。二、数据分片机制：对可用性与扩展性的优先保障Redis Cluster的数据分片采用哈希槽（Hash Slot）方案，核心设计目标是水平扩展与高可用性，具体机制如下：1. 哈希槽分配逻辑Redis Cluster将整个键空间划分为16384个固定哈希槽（编号0~16383），每个主节点负责连续的槽区间（如节点A负责0~5000槽，节点B负责5001~10000槽，节点C负责10001~16383槽）。数据映射方式：通过CRC16(key) % 16384计算键对应的哈希槽，再将槽路由到对应的主节点；动态调整：支持在线重分片（通过redis-cli --cluster reshard命令），无需停机即可将槽从满节点迁移至空闲节点，保障扩展性。2. 对可用性与扩展性的体现高可用性：每个主节点配备1~N个从节点，主节点故障时从节点自动升级为主节点（故障转移机制），确保数据不丢失且服务持续；水平扩展性：通过增加节点并重新分配哈希槽，可线性扩展集群容量（如从3节点扩展至1000节点），满足缓存数据增长需求；负载均衡：哈希槽均匀分配至各节点，避免单点压力过大，提升整体吞吐量。3. 一致性的妥协哈希槽机制本身不保证强一致性，但通过主从复制实现数据冗余。由于复制是异步的，主节点写操作后，从节点可能未及时同步，导致读从节点时获取旧数据（最终一致性）。这种妥协是为了避免同步复制带来的延迟，保障可用性。三、故障转移机制：对可用性的极致追求Redis Cluster的故障转移机制基于主从复制与Gossip协议，核心目标是快速恢复故障节点，确保服务可用性，具体流程如下：1. 故障检测节点状态监控：每个节点通过Gossip协议定期向其他节点发送PING消息，报告自身状态（如ALIVE、SUSPECT、FAIL）；主观下线（SDOWN）：若节点在node-timeout（默认15秒）内未收到某节点的PONG响应，标记该节点为SUSPECT（可疑）；客观下线（ODOWN）：当多数主节点（超过集群主节点数量的1/2）都标记某节点为SUSPECT，则该节点被标记为FAIL（故障），触发故障转移。2. 故障转移流程从节点选举：故障主节点的从节点通过优先级规则选举新主节点：过滤掉不健康的从节点（如自身状态为FAIL）；选择优先级最高的从节点（slave-priority配置，默认100，值越小优先级越高）；若优先级相同，选择复制偏移量最大的从节点（同步数据最多）；若复制偏移量相同，选择RunID最小的从节点（唯一标识）。主节点切换：选出的从节点执行slaveof no one命令，成为新主节点；并通过slaveof命令让其他从节点成为其从节点；集群状态更新：新主节点通过Gossip协议向集群广播自身状态，更新哈希槽归属，确保所有节点识别新主节点。3. 对可用性的体现快速恢复：故障转移流程通常在10~30秒内完成（取决于node-timeout配置），远低于业务容忍的故障时间（如电商大促时，1分钟故障可能导致大量订单流失）；自动无缝切换：客户端通过MOVED重定向（收到MOVED错误后更新槽映射）或Smart Client（缓存槽映射，减少重定向次数），无需人工干预即可切换至新主节点，保障服务连续性。4. 一致性的妥协故障转移过程中，异步复制可能导致数据丢失（如主节点故障前未同步至从节点的数据）。为降低丢失风险，Redis提供WAIT命令（同步写操作，等待从节点确认），但这会增加延迟，因此仅在强一致性需求场景（如金融交易缓存）中使用，默认仍采用异步复制。四、总结一下下：Redis Cluster的CAP选择逻辑机制优先保障的 CAP 特性对一致性（C）的处理数据分片P（分区容错）、A（可用）异步复制导致短暂不一致，最终一致故障转移A（可用）、P（分区容错）故障节点可能丢失数据，恢复后一致Redis Cluster的设计本质是以缓存场景为核心，通过以下方式实现CAP权衡：可用性（A）：通过主从复制、自动故障转移、无中心化架构，确保节点故障时服务不中断；分区容忍性（P）：通过哈希槽分区、Gossip协议，容忍网络分区，保持集群可用；一致性（C）：通过异步复制实现最终一致性，妥协强一致性，换取高可用性与扩展性。这种选择使Redis Cluster成为分布式缓存的首选方案，适用于商品列表、会话信息、计数器等对一致性要求不高但需要高可用的场景。参考资料：Redis Cluster官方文档：https://redis.io/docs/reference/cluster-spec/ Redis官方文档：https://redis.io/topics/cap-theorem

Jack20 发表于2025-10-29 10:30:13 2025-10-29 10:30:13 最后回复 Jack20 2025-10-29 10:30:13
13 0

云存储开发者
MDC300F 的程序迁移到 MDC510

MDC300F 的程序迁移到 MDC510，核心是适配硬件平台差异、操作系统 / 中间件特性差异，除了你提到的 ARXML 适配、三方库与自身程序交叉编译外，还需重点关注硬件驱动、OS / 实时性、中间件通信、传感器适配（激光雷达 / 组合定位）等模块，一、硬件平台相关的软件适配（核心的差异点）MDC300F 与 MDC510 的硬件架构（CPU、内存、接口、芯片组）存在差异（如 MDC510 可能升级了 CPU 核心数、扩展了 PCIe 接口、优化了实时性芯片），需针对性适配：1. 板级支持包（BSP）与驱动适配BSP 版本更新：MDC510 有专属的板级支持包（含硬件初始化、中断映射、时钟配置），需替换为 MDC510 对应的 BSP 版本，不能直接复用 MDC300F 的 BSP。例如：内存初始化参数（如 DDR 带宽、地址映射）需按 MDC510 的硬件规格调整；中断优先级配置（如 PCIe 设备中断、传感器接口中断）需重新分配，避免与 MDC510 的硬件中断冲突。硬件接口驱动适配：若程序用到 MDC 的板载接口（如网口、CAN/LIN 口、PCIe 插槽），需确认 MDC510 的接口驱动是否兼容：例如 MDC300F 的网口可能是千兆网，MDC510 升级为 2.5G 网，需更新网口驱动（如 DPAA2 驱动）并调整网卡参数（如 MTU 值、速率协商模式）；CAN 口的硬件控制器可能从 SJA1000 换为 MCP2515，需替换 CAN 驱动并重新配置波特率、滤波规则。2. 操作系统（OS）与实时性适配MDC 系列通常搭载 QNX 或定制 Linux，MDC510 的 OS 版本（如 QNX 7.1 vs MDC300F 的 QNX 7.0）或实时性配置存在差异，需适配：OS 系统调用适配：若程序使用了 OS 原生 API（如 QNX 的msgSend/msgReceive、Linux 的pthread），需确认高版本 OS 是否存在 API 兼容性问题（如参数变更、废弃接口），例如 QNX 7.1 对实时调度策略的枚举值调整，需修改代码中SCHED_FIFO的配置。实时性参数重调：MDC510 的 CPU 算力更强（如多核心 ARM Cortex-A76），需重新分配程序的线程核心绑定（如将激光雷达数据处理线程绑定到独立 CPU 核心）；调整进程调度周期、中断响应时间阈值（如 MDC300F 的调度周期为 10ms，MDC510 可优化为 5ms 以提升实时性，但需验证稳定性）。内存与资源限制：MDC510 的内存更大（如 16GB vs MDC300F 的 8GB），需重新配置程序的内存分配参数（如堆内存大小、共享内存段地址），避免因旧配置导致内存浪费或溢出。二、中间件与通信协议适配MDC 上的自动驾驶程序依赖多种中间件（如 SOME/IP、DDS、华为自研的 ADS 中间件），MDC510 的中间件版本或配置可能与 MDC300F 不同，需适配：1. 自动驾驶中间件适配若使用华为 MDC 的ADS 框架（如 APollo-MDC 适配层、华为自研的功能模块框架），需更新中间件版本至 MDC510 支持的版本，并重新配置框架参数：例如 SOME/IP 的服务发现配置（如sd_server的 IP 和端口），MDC510 可能因硬件接口变化调整了服务端地址；DDS 通信的域 ID、QoS 策略（如可靠性级别、数据传输模式），需按 MDC510 的中间件文档重新配置，避免数据收发丢包。功能模块通信接口：若程序中各模块（如感知、决策、控制）通过中间件交互，需重新验证模块间的通信链路，例如 MDC300F 上感知模块通过 CAN 发送目标信息，MDC510 可能改用 Ethernet 发送，需修改通信协议类型和接口映射。2. 诊断与监控模块适配MDC 的诊断（比如 UDS 诊断）、监控（如 CPU / 内存使用率监控）模块在不同型号上的实现存在差异：UDS 诊断配置：需重新适配 MDC510 的诊断服务（如故障码定义、诊断会话控制），例如 MDC300F 的故障码0x1901对应内存故障，MDC510 可能调整为0x1902，需更新诊断数据库（如 ODX 文件）。监控阈值重设：根据 MDC510 的硬件资源，重新设置监控阈值（如 CPU 使用率超过 80% 告警，内存使用率超过 70% 告警），避免因旧阈值导致误报或漏报。三、激光雷达与组合定位的适配（这个点要重点处理一下下）激光雷达和组合定位作为核心传感器，其适配与否直接影响功能可用性，通常需要重新适配，原因及适配点如下：1. 激光雷达适配硬件接口映射适配：MDC510 的激光雷达接口（如网口、电源接口）可能与 MDC300F 的物理位置或接口类型不同（如 MDC300F 用网口 1，MDC510 用网口 3），需在 ARXML 或配置文件中重新映射传感器的硬件接口（如绑定激光雷达的 IP 到 MDC510 的指定网口）。驱动与 SDK 适配：激光雷达厂商（如 Velodyne、RoboSense）针对不同 MDC 型号可能提供不同版本的驱动 / SDK，需替换为 MDC510 兼容的驱动（如 RoboSense 的rslidar_sdk_v2.5适配 MDC510，而 MDC300F 用v2.0）；若驱动依赖特定硬件资源（如 PCIe 带宽、CPU 核心），需在 MDC510 上重新编译驱动，并配置资源分配（如给激光雷达驱动分配独占的 PCIe 通道）。参数配置与校准：重新配置激光雷达的工作参数（如点云帧率、分辨率、扫描角度），确保适配 MDC510 的计算能力（如 MDC510 可支持更高帧率的点云处理）；重新进行激光雷达的外参校准（如与车身的相对位置、姿态），因为 MDC510 在车辆上的安装位置可能与 MDC300F 不同，外参变化会导致点云坐标偏移。2. 组合定位适配组合定位（比如 GNSS+IMU）的适配逻辑与激光雷达类似，核心是适配硬件接口、驱动和参数：硬件接口适配：组合定位模块的接口（如 CAN、UART、Ethernet）在 MDC510 上的映射可能变化，需重新配置接口参数（如 CAN 波特率、UART 的波特率 / 数据位 / 停止位）。驱动与协议适配：替换为 MDC510 兼容的组合定位驱动（如华为自研的定位驱动、Trimble 的 MDC510 专用驱动），并适配定位协议（如 NMEA、RTK 协议），确保定位数据能正确解析。定位参数与校准：重新配置定位模块的工作模式（如 RTK 基准站地址、IMU 的零偏校准参数），MDC510 可能支持更高精度的定位算法（如多频 GNSS），需启用对应功能；重新进行组合定位的时间同步（如与激光雷达、相机的时间戳对齐），MDC510 的 PTP（精确时间协议）模块可能与 MDC300F 不同，需重新配置 PTP 参数（如时钟源、同步周期），避免时间偏差导致定位数据与其他传感器数据不同步。四、其他需适配的点1. 功能安全与性能优化功能安全适配：MDC510 的功能安全等级（如 ASIL-B/D）可能与 MDC300F 一致，但硬件安全机制（如内存保护、故障检测模块）存在差异，需重新验证程序的功能安全设计：例如 MDC300F 的内存故障检测通过软件实现，MDC510 支持硬件级 ECC 内存，需启用硬件故障检测功能，并修改故障处理逻辑。性能优化适配：利用 MDC510 的算力优势（如多 CPU 核心、GPU 加速），优化程序的并行处理逻辑（如将感知模块的点云分割、目标检测拆分到不同 CPU 核心，或启用 GPU 加速深度学习推理）；重新调整程序的缓存策略（如增大高频访问数据的缓存大小），适配 MDC510 的 CPU 缓存架构（如 L3 缓存容量更大）。2. 配置文件与脚本适配除了 ARXML 文件，程序依赖的其他配置文件（如传感器参数配置文件、算法参数配置文件）需重新适配：例如激光雷达的点云过滤参数配置文件，需根据 MDC510 的处理能力调整过滤阈值；启动脚本（如 QNX 的build.sh、Linux 的startup.sh）需修改，适配 MDC510 的启动流程（如启动顺序、硬件初始化脚本路径）。日志与调试工具适配：MDC510 的日志输出接口、调试工具（如 QNX 的pidin、Linux 的top）可能有差异，需修改程序的日志打印逻辑（如日志输出路径、日志级别控制），确保调试工具能正常获取程序运行状态。总结一下下核心适配点可归纳为：硬件驱动与 BSP、OS / 实时性、中间件通信、激光雷达 / 组合定位传感器、功能安全与性能、配置文件与脚本。其中，激光雷达和组合定位必须重新适配（因硬件接口、驱动、参数均存在差异），否则会导致传感器数据无法正常采集或解析，进而影响整体功能。

Jack20 发表于2025-10-29 10:25:32 2025-10-29 10:25:32 最后回复 Jack20 2025-10-29 10:25:32
13 0

云存储开发者
小熊派hi3863常见报错问题解决方法

一、错误根源定位报错 - 4 通常表示设备与平台之间的并发消息处理超出限制，但结合用户尝试直接复制 MQTT 参数仍失败的情况，实际原因可能是认证参数格式错误或设备未完成激活流程，导致平台拒绝连接。以下是关键排查点：二、核心参数验证1. ClientID 格式华为 IoT 平台要求 ClientID 必须包含设备 ID 和时间戳，格式为：{device_id}_0_0_{timestamp} 验证方法：设备 ID 需与平台注册的完全一致（区分大小写）。时间戳为当前 UTC 时间（毫秒级），需动态生成且每次连接唯一。示例：device123_0_0_16372345678902. Username/Password 生成规则Username：固定为设备 ID。Password：需使用 HMAC-SHA256 算法对 clientId${clientId}deviceName${deviceName}productKey${productKey}timestamp${timestamp} 字符串进行签名，其中：clientId：即上述格式的 ClientID。deviceName：设备名称（与平台注册一致）。productKey：产品 ID（平台分配）。timestamp：与 ClientID 中的时间戳一致。3. TLS 证书配置华为 IoT 平台强制要求使用 TLS 加密连接（端口 8883），需在设备端配置华为云根证书。验证方法：下载华为云 IoT 平台根证书（点击获取）。确保代码中正确加载证书路径，比如哈： #define CN_ROOT_CA_CERT \ "-----BEGIN CERTIFICATE-----\n" \ "MIIDXzCCAkegAwIBAgILBAAAAAABIVhTCKIwDQYJKoZIhvcNAQELBQAwTDEgMB4G\n" \ ... // 证书内容三、设备激活流程检查设备首次连接平台时需完成激活流程，否则会被标记为未激活状态。激活失败可能导致认证失败，需检查以下步骤：设备初始化消息：连接成功后，必须立即向平台发送初始化消息（如属性上报）。主题：$oc/devices/{device_id}/sys/properties/report消息内容 { "services": [ { "service_id": "default", "properties": { "deviceStatus": "online" } } ] } 心跳机制：设备需周期性发送心跳消息（建议间隔 60 秒），以保持连接有效性。比如主题：$oc/devices/{device_id}/sys/keepalive四、网络与并发问题处理网络连通性：确保设备能访问华为 IoT 平台地址（如iot-mqtts.cn-north-4.myhuaweicloud.com）。检查防火墙是否开放 8883 端口。用工具测试连接： openssl s_client -connect iot-mqtts.cn-north-4.myhuaweicloud.com:8883 并发消息控制：华为 IoT 平台对单设备的并发消息数有限制（默认 10 条），需确保每条消息都得到 ACK 响应后再发送新消息。优化代码逻辑，增加消息队列和 ACK 超时处理机制。五、代码调试与日志分析串口日志输出：启用设备端 MQTT 调试日志，捕获连接过程中的详细信息。试一下下（Paho 库）：[MQTT] Connecting to iot-mqtts.cn-north-4.myhuaweicloud.com:8883... [MQTT] CONNECT packet: clientId=device123_0_0_1637234567890, username=device123, password=... [MQTT] CONNACK received: code=4 (Connection Refused: Bad user name or password) 平台消息跟踪：在华为云控制台开启设备的消息跟踪功能，查看具体交互日志。路径：设备管理 → 设备详情 → 消息跟踪六、直连测试工具验证使用第三方 MQTT 客户端（如 MQTTX）直接测试设备参数，排除代码问题：配置参数：Broker 地址：iot-mqtts.cn-north-4.myhuaweicloud.com端口：8883ClientID：{device_id}_0_0_{timestamp}Username：设备 IDPassword：计算后的签名值证书：华为云根证书测试步骤：连接后发送初始化消息。观察平台设备状态是否变为在线。七、常见的问题和一些解决方案问题现象可能原因解决方法CONNACK 返回码 4用户名 / 密码错误重新计算签名，确保参数格式正确。设备状态显示 “未激活”未发送初始化消息在连接成功后立即发送属性上报消息。并发消息超限未处理 ACK 响应增加消息队列和 ACK 超时处理，控制发送频率。TLS 连接失败证书配置错误检查证书内容是否完整，路径是否正确。平台域名无法解析DNS 配置问题手动设置设备 DNS 为 8.8.8.8 或华为云 DNS 服务器。八、跑个小案例试试（Paho 库） #include <MQTTClient.h> #define DEVICE_ID "your_device_id" #define PRODUCT_KEY "your_product_key" #define DEVICE_SECRET "your_device_secret" #define MQTT_BROKER "iot-mqtts.cn-north-4.myhuaweicloud.com:8883" #define ROOT_CA_CERT "-----BEGIN CERTIFICATE-----\n...\n-----END CERTIFICATE-----" void mqtt_connect() { MQTTClient client; Network network; char client_id[64]; char password[256]; time_t now = time(NULL); snprintf(client_id, sizeof(client_id), "%s_0_0_%ld", DEVICE_ID, now); // 计算密码 char sign_str[256]; snprintf(sign_str, sizeof(sign_str), "clientId%sdeviceName%sproductKey%stimestamp%ld", client_id, DEVICE_ID, PRODUCT_KEY, now); hmac_sha256(sign_str, strlen(sign_str), DEVICE_SECRET, strlen(DEVICE_SECRET), password); NetworkInit(&network); MQTTClientInit(&client, &network, 3000, NULL, 0, NULL, 0); MQTTPacket_connectData connect_opts = MQTTPacket_connectData_initializer; connect_opts.MQTTVersion = 4; connect_opts.clientID.cstring = client_id; connect_opts.username.cstring = DEVICE_ID; connect_opts.password.cstring = password; connect_opts.keepAliveInterval = 60; connect_opts.cleansession = 1; connect_opts.willFlag = 0; // 配置TLS MQTTSetTLS(&client, ROOT_CA_CERT, NULL, NULL); int rc = MQTTConnect(&client, &connect_opts); if (rc != 0) { printf("MQTT connect failed: %d\n", rc); return; } // 发送初始化消息 char payload[] = "{\"services\":[{\"service_id\":\"default\",\"properties\":{\"deviceStatus\":\"online\"}}]}"; MQTTMessage message = { .payload = payload, .payloadlen = strlen(payload), .qos = 1, .retained = 0 }; MQTTPublish(&client, "$oc/devices/your_device_id/sys/properties/report", &message); }

Jack20 发表于2025-10-29 10:20:30 2025-10-29 10:20:30 最后回复 Jack20 2025-10-29 10:20:30
75 0

云存储开发者
私信回复受限

私信功能，回帖的时候，正常回复消息受限制，建议改进

Jack20 发表于2025-10-29 10:12:11 2025-10-29 10:12:11 最后回复 Jack20 0
15 0

开发者
[技术干货] Ascend>MindSpeed>Ascend EOD Reset训练场景

请查阅参考昇腾社区文档：https://gitee.com/ascend/MindSpeed/blob/master/docs/features/eod-reset.md

AI百校计划技术专家 发表于2025-10-29 10:09:57 2025-10-29 10:09:57 最后回复福州司马懿 2025-10-31 14:29:15
42 2

云社区开发者
[技术干货] Ascend>MindSpeed>MoE跨microbatch间AlltoAll通信掩盖

请查阅参考昇腾社区文档：https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-fb-overlap.md

AI百校计划技术专家 发表于2025-10-29 10:09:05 2025-10-29 10:09:05 最后回复福州司马懿 2025-10-31 14:29:16
62 2

云社区开发者
[新特性] 版本速递 | 华为云Versatile智能体平台新增特性介绍（2025年10月发布）

(2025年10月） < 华为云Versatile智能体平台体验入口>华为开发者空间--开发平台--Versatile Agent （请在PC端打开）版本概览 Summary 华为云Versatile智能体平台定位为一站式企业级智能体构建平台，倡导人人都能构建自己的企业级智能体。本次十月版本升级围绕MCP服务、工作流应用、知识库、插件、工作空间等模块实现10+项特性优化，全力为开发者们在创建创意智能体过程中带来更流畅的体验，与开发者合力构建易用、好用、开放的AI Agent平台。新增重点特性介绍 Introduction 01 资产中心资产中心 · MCP广场新增80+官方预置MCP工具，总数累计达100业务价值：丰富MCP资产的类型与数量，开箱即用，降低开发门槛，为用户带来更流畅的开发体验。 02 Agent发布应用管理 · 支持单智能体应用、工作流应用发布为网页，可在web端打开Agent进行快速交互。业务价值：通过一键发布，生成链接，支持在web端以网页形式快捷访问智能体应用，丰富打开方式。 03 工作流节点应用管理-工作流应用 · 新增异常节点功能，用户可以根据业务需求自定义异常信息。可通过直接输入或插入创建好的消息模板，在异常码抛出中输入异常信息。业务价值：可由用户自主抛出业务异常。异常节点用于抛出预定义的业务异常码，可传递给中控进行后续处理。配置管理 · 新增消息模板功能，用户可以自定义消息模板，并在工作流应用的对应节点中使用。(如：异常分类的消息模板可以在异常节点中使用）业务价值：通过将消息完成结构化创建存为模板，实现租户或工作空间内的共享；方便在节点创建时直接选用模板，简化操作。应用管理-工作流应用 · 工作流应用在编排节点配置时，支持通过搜索栏输入关键词，快速定位所需引用参数业务价值：提供关键词搜索能力，方便用户快速定位所需参数，提升筛选效率。 · 消息节点支持引用流式和非流式输出参数业务价值：丰富消息节点的引用模式。 04 数据能力知识库 · 知识库新增查看引用功能，提供引用列表，可查看当前知识库被哪些智能体和工作流引用业务价值：提供知识库被引用关系溯源，便于清晰查看知识库被引用的路径，用于判断知识库变更对哪些Agent、检索流产生影响。 05 插件能力组件库-我的插件 · 创建插件支持多工具管理，一个插件下可以新建多个相关工具业务价值：优化插件创建流程，实现插件的多工具集合管理，通过类别划分支撑插件在智能体选用时更为便捷。应用管理 · 在智能体及工作流应用中，灵活选择多个插件下的工具或一个插件下的多个工具。业务价值：提高插件选择的便捷性，优化用户体验。 06 工作空间工作空间 · 工作空间角色优化，增加开发工程师、运维工程师业务价值：通过增加特定角色，优化对团队空间的操作权限细分，方便组织内多岗位成员协作，显著提升团队的工作效率。 07 模型管理模型调测· 模型服务调测时，支持一键清除输入内容业务价值：一键快速清除，提升模型调测的操作效率。 08 开发中心应用管理· 单智能体应用、工作流应用在“发布管理”页面支持复制URL业务价值：可一键复制，简化操作，提升用户体验。 · 调用工作流应用接口，增加响应参数业务价值：补充响应参数信息，方便调用查看。点击可前往>>华为云Versatile智能体平台官网

AgentArts运营小助手 发表于2025-10-28 18:01:54 2025-10-28 18:01:54 最后回复小草飞上天 2025-11-12 14:15:42
2152 4

AI开发平台ModelArts 人工智能智果（AgentArts）智能体平台 ModelArts Studio 开发者
[技术干货] 【云学堂直播】仓颉编程语言入门级开发者认证—考试辅导

直播主题：仓颉编程语言入门级开发者认证——考试辅导直播讲师：leo 丨华为云学堂技术讲师直播时间：2025/10/31 16:00-17:30直播链接：cid:link_0直播简介：本期直播将体系化梳理仓颉编程语言入门级开发者认证课程，清晰解读其发展历程、核心概念与典型应用场景，并提供通关指南，助您全面掌握认证考核要点与学习路径。直播亮点：1、仓颉编程语言入门级开发者认证题型分析；2、仓颉开发者认证核心理论概念精讲以及模拟考题拆解；3、仓颉开发者认证实操要点梳理。加入微信交流群：直播期间扫码入群，解锁更多隐藏福利哦~

开发者学堂欢欢 发表于2025-10-28 16:24:12 2025-10-28 16:24:12 最后回复福州司马懿 2025-10-31 14:29:16
123 3

开发者认证开发者开发者学堂
[技术干货] Ascend>MindSpeed>共享专家特性

请查阅参考昇腾社区文档：https://gitee.com/ascend/MindSpeed/blob/master/docs/features/shared-experts.md

AI百校计划技术专家 发表于2025-10-28 15:10:28 2025-10-28 15:10:28 最后回复福州司马懿 2025-10-31 14:29:15
62 3

云社区开发者
[技术干货] Ascend>MindSpeed>Megatron MoE allgather dispatcher分支通信隐藏优化

请查阅参考昇腾社区文档：https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-allgather-overlap-comm.md

AI百校计划技术专家 发表于2025-10-28 15:09:32 2025-10-28 15:09:32 最后回复福州司马懿 2025-10-31 14:29:16
52 2

云社区开发者
[技术干货] LLaMA-Factory多机多卡训练

LLaMA-Factory多机多卡训练为了在多机多卡环境下训练大模型，我们可以使用LLaMA-Factory。它支持多种常见模型，集成了包括（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等训练方法，并且有web-ui和命令行两种使用方式，是目前主流的模型训练框架之一。1 安装LLaMa-Factory下载 LLAMA-Factory 并进入项目目录，本文档所有操作均在该目录下进行：git clone https://github.com/hiyouga/LLaMA-Factory.gitcd LLaMA-Factory2、Python 环境创建创建并激活 Python 环境：conda create -y -n llamafactory python=3.10conda activate llamafactory3、LaMA-Factory 安装使用以下指令安装带有 torch-npu 的 LLaMA-Factory：pip install -e “.[torch-npu,metrics]” -i https://pypi.tuna.tsinghua.edu.cn/simple使用自定义数据集时，需要更新 data/dataset_info.json 文件。image.png多机多卡训练LLaMA-Factory支持多种多机多卡训练方式，包括DDP，DeepSpeed，FSDP。针对想要使用 NativeDDP 或 DeepSpeed 两种分布式训练引擎，推荐使用下列命令，区分两种训练引擎仅仅在于训练的yaml参数文件中。然后，必须在每个节点上使用export HCCL_SOCKET_IFNAME=eth0 来指定当前节点的 HCCL 通信网卡（请使用目标网卡名替换 eth0）。以两机环境为例，分别在主、从节点（机器）上执行如下两条命令即可启动多机训练：FORCE_TORCHRUN=1 NNODES=2 RANK=0 STER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml 主节点运行FORCE_TORCHRUN=1 NNODES=2 RANK=1STER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml 从节点运行使用此方式需要在每台机器上分别运行指令，同时每台机器上都需要安装LLaMA-Factory和相同的conda环境，都需要保存一份要训练的模型文件。参考yamlmodelmodel_name_or_path: Qwen/Qwen3-8B-Base # 更新为本地路径（否则回去社区下载）methodstage: sftdo_train: truefinetuning_type: loralora_target: q_proj,v_proj # 可保留，也可扩展为更多模块（见下方建议）lora_rank: 64 # 推荐设置，LoRA 秩lora_dropout: 0.05 # 可选：增加轻微 dropout 提升泛化lora_alpha: 16 # 缩放参数，一般设为 r 的倍数ddpddp_timeout: 180000000deepspeed: examples/deepspeed/ds_z0_config.json # 根据显卡数量选择合适的 ZeRO 配置datasetdataset: identity,alpaca_en_demo # 示例数据集，可替换为你自己的template: qwen # 注意：Qwen3 支持新的 template 名称，但目前仍可用 qwencutoff_len: 8192 # Qwen3 支持最长 32768，但训练时建议从 8192 起步以节省显存max_samples: 1000overwrite_cache: truepreprocessing_num_workers: 16outputoutput_dir: saves/Qwen3-8B/lora/sft # 输出路径更新logging_steps: 10save_steps: 500eval_steps: 500plot_loss: trueoverwrite_output_dir: truetrainper_device_train_batch_size: 1 # 根据 GPU 显存调整（如 A100 80G 可尝试 2）gradient_accumulation_steps: 4 # 增大以补偿小 batch size，提升有效 batchlearning_rate: 2e-5 # 推荐 LoRA 学习率范围 1e-5 ~ 5e-5num_train_epochs: 3.0lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: true # 如果使用 bf16，请确保硬件支持并改用 bf16: trueevalval_size: 0.1per_device_eval_batch_size: 1eval_strategy: stepseval_on_train: false # 是否在训练集上也评估（可选）additionalreport_to: tensorboard # 或 wandb，用于可视化监控seed: 42

bobralee 发表于2025-10-27 17:13:10 2025-10-27 17:13:10 最后回复福州司马懿 2025-10-31 14:28:49
502 3

pytorch 人工智能开发者
[技术干货] Ascend>MindSpeed>Megatron MoE alltoall dispatcher分支通信隐藏优化

请查阅参考昇腾社区文档：https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-alltoall-overlap-comm.md

AI百校计划技术专家 发表于2025-10-27 11:20:55 2025-10-27 11:20:55 最后回复福州司马懿 2025-10-31 14:28:40
51 4

云社区开发者

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript