p2p_标签_开发者_华为云

博客(0)
视频(0)
论坛(0)
云声(0)
代码示例(0)

[问题求助] MC²通算融合算子ALL-reduce的矩阵分块策略为何是对M分块

最近拜读了https://bbs.huaweicloud.com/blogs/450734这篇文章，里面讲解将ALL-reduce和GEMM融合的分块方式只切分M轴。因为通信任务调用的Hccl API要求分块数据内存连续，若按N轴切分，则每行数据都被切断，导致通信数据的内存不连续，不满足通信要求；若按M轴切分，则每行数据都是内存连续的，满足通信要求。看完后有两个疑问想请教下：文章里提到只对M轴切分，是否可以认为只对左矩阵切分，每个GPU拿到部分左矩阵数据，而右矩阵不切分，每个GPU拿到完整的右矩阵数据若只对M轴切分，则多卡通信汇聚数据的时候，理论上不需要将多卡的数据进行求和，这里为啥需要使用all-reduce而不是all-gather（我知道目前也是支持all-gather与gemm融合的，只不过all-reduce的这个分块方式令我有些困惑）由于我刚接触该融合特性，如果上面的理解有不到位的地方还请指正，多谢！

yd_226359811 发表于2025-04-08 13:38:56 2025-04-08 13:38:56 最后回复 yd_255974160 2026-01-08 11:55:22
180 1

p2p 任务调度高性能计算数据通信算法

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript