- 笔者最近发现在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成。 并且执行nvidia-smi也明显变很卡顿。 笔者最近发现在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成。 并且执行nvidia-smi也明显变很卡顿。
- 对政企、金融客户来说,裸金属服务器相比于云服务器,更能满足他们对性能和稳定性的要求。但裸金属服务器的网络实现,却存在成本高、灵活性差、成熟度不足等问题。为解决这些问题,华为云Stack有一套增强版的网络方案。 对政企、金融客户来说,裸金属服务器相比于云服务器,更能满足他们对性能和稳定性的要求。但裸金属服务器的网络实现,却存在成本高、灵活性差、成熟度不足等问题。为解决这些问题,华为云Stack有一套增强版的网络方案。
- 从服务器选型、技术实力解密到应用案例,真正读懂华为云服务器如何为企业夯实数字底座。 从服务器选型、技术实力解密到应用案例,真正读懂华为云服务器如何为企业夯实数字底座。
- GPU A系列裸金属服务器GPU间是走NVLINK,本文给出使用pytorch2.0测试单服务器内GPU卡间带宽性能。 GPU A系列裸金属服务器GPU间是走NVLINK,本文给出使用pytorch2.0测试单服务器内GPU卡间带宽性能。
- GPU 裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML: Driver/library version mismatch GPU 裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML: Driver/library version mismatch
- 本文解决当GPU A系列裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本. 本文解决当GPU A系列裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本.
- 裸金属服务器使用Euler2.8操作系统, 由于yum update导致NetworkManagre-config-server升级,出现SSH网络链路故障。 裸金属服务器使用Euler2.8操作系统, 由于yum update导致NetworkManagre-config-server升级,出现SSH网络链路故障。
- 解决如何将GPU VNT1裸金属服务器纳管至已创建好的华为云CCE集群, 并且在集群安装gpu-device-plugin插件, 根据pytorch2.01镜像创建pod,验证cuda是否可用。 本文给出端到端详解的步骤, 助力读者快速部署业务。 解决如何将GPU VNT1裸金属服务器纳管至已创建好的华为云CCE集群, 并且在集群安装gpu-device-plugin插件, 根据pytorch2.01镜像创建pod,验证cuda是否可用。 本文给出端到端详解的步骤, 助力读者快速部署业务。
- 一个租户VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有弹性裸金属资源均可以通过该EIP进行公网访问和SSH登录。 一个租户VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有弹性裸金属资源均可以通过该EIP进行公网访问和SSH登录。
- 华为云GPU裸金属服务器,结合OBS、SFS两种云存储服务,提供了多种场景下的存储解决方案。 华为云GPU裸金属服务器,结合OBS、SFS两种云存储服务,提供了多种场景下的存储解决方案。
- Ubuntu 20.04内核自动升级会带来系统软件兼容性问题。建议在使用时,禁止自动内核升级,进行手动升级。 Ubuntu 20.04内核自动升级会带来系统软件兼容性问题。建议在使用时,禁止自动内核升级,进行手动升级。
- 进阶版ECS,它有什么亮点呢?有什么实际作用呢?本文给出参考答案 进阶版ECS,它有什么亮点呢?有什么实际作用呢?本文给出参考答案
- 通过配编译器等应用的来并行优化层面去综合优化,这样来提升WRF运行性能 通过配编译器等应用的来并行优化层面去综合优化,这样来提升WRF运行性能
- 用ServiceComb微服务框架为地基,在上面建一个天气预报,你可以通过一个实际的系统,以实战角度来完正搞下微服务应用的构建、部署、运维、以及治理是咋实现,万字长文预警,买不了吃亏的哈! 用ServiceComb微服务框架为地基,在上面建一个天气预报,你可以通过一个实际的系统,以实战角度来完正搞下微服务应用的构建、部署、运维、以及治理是咋实现,万字长文预警,买不了吃亏的哈!
- [HCS]831版本因裸金属主机组未配置资源类型及裸金属规格未配置vpc网卡数量导致集群下发失败定位解决过程 [HCS]831版本因裸金属主机组未配置资源类型及裸金属规格未配置vpc网卡数量导致集群下发失败定位解决过程
上滑加载中
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签