-
最近拜读了https://bbs.huaweicloud.com/blogs/450734这篇文章,里面讲解将ALL-reduce和GEMM融合的分块方式只切分M轴。因为通信任务调用的Hccl API要求分块数据内存连续,若按N轴切分,则每行数据都被切断,导致通信数据的内存不连续,不满足通信要求;若按M轴切分,则每行数据都是内存连续的,满足通信要求。看完后有两个疑问想请教下:文章里提到只对M轴切分,是否可以认为只对左矩阵切分,每个GPU拿到部分左矩阵数据,而右矩阵不切分,每个GPU拿到完整的右矩阵数据若只对M轴切分,则多卡通信汇聚数据的时候,理论上不需要将多卡的数据进行求和,这里为啥需要使用all-reduce而不是all-gather(我知道目前也是支持all-gather与gemm融合的,只不过all-reduce的这个分块方式令我有些困惑)由于我刚接触该融合特性,如果上面的理解有不到位的地方还请指正,多谢!
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签