- 本文旨在在此机器上做NCCL-test测试, 先装机,在测试。 本文旨在在此机器上做NCCL-test测试, 先装机,在测试。
- 1. 环境描述服务器信息: 华为云GPU VNT1裸金属服务器操作系统:Ubuntu 18.04 server 64bit for V100 BareMetalGPU驱动版本:470CUDA版本:11.42. 安装NVIDIA驱动 wget https://cn.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.... 1. 环境描述服务器信息: 华为云GPU VNT1裸金属服务器操作系统:Ubuntu 18.04 server 64bit for V100 BareMetalGPU驱动版本:470CUDA版本:11.42. 安装NVIDIA驱动 wget https://cn.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103....
- 文章主要讨论了服务器中常见性能问题的一些排查思路,这篇文章主要讨论了CPU负载过高,频繁GC和频繁切换上线文这三个问题。 文章主要讨论了服务器中常见性能问题的一些排查思路,这篇文章主要讨论了CPU负载过高,频繁GC和频繁切换上线文这三个问题。
- ModelArts Server裸金属服务器解决方案总览全景入口. ModelArts Server裸金属服务器解决方案总览全景入口.
- GPU裸金属服务器使用Node Exporter实现N卡指标监控可视化方案 GPU裸金属服务器使用Node Exporter实现N卡指标监控可视化方案
- 本文介绍将北京四的SFS网络盘挂载至乌兰察步一的GPU裸金属服务器上,给出配置和验证结果。 本文介绍将北京四的SFS网络盘挂载至乌兰察步一的GPU裸金属服务器上,给出配置和验证结果。
- 在华为云GPU Ant8裸金属服务器中, 使用Megatron-Deepspeed框架训练GPT-2, 分别进行单机单卡和单机多卡训练。 训练完成后给出自动式生成内容,和交互式对话框模式。 在华为云GPU Ant8裸金属服务器中, 使用Megatron-Deepspeed框架训练GPT-2, 分别进行单机单卡和单机多卡训练。 训练完成后给出自动式生成内容,和交互式对话框模式。
- 笔者使用pytorch验证cuda有效性报错, CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environmen, 笔者给出两种解决方法。 笔者使用pytorch验证cuda有效性报错, CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environmen, 笔者给出两种解决方法。
- 使用华为云BMS GO SDK和Python封装API两种方式,实现裸金属服务器的操作系统切换。 使用华为云BMS GO SDK和Python封装API两种方式,实现裸金属服务器的操作系统切换。
- 笔者在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7, 使用Pytorch2.0时出现如下错误:CUDA initialization: Unexpected error from cudaGetDeviceCount(), 经定位是nvidia-fabricmanager异常导致。 笔者在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7, 使用Pytorch2.0时出现如下错误:CUDA initialization: Unexpected error from cudaGetDeviceCount(), 经定位是nvidia-fabricmanager异常导致。
- 本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。 本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。
- 在华为云裸金属服务器GPU V100, 操作系统为EulerOS 2.9环境下,经常遇到服务器重启后,操作系统内核莫名其妙升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。针对这些内核升级带来的困扰, 本文给出详细的避免重启误升级内核的解决方案。 在华为云裸金属服务器GPU V100, 操作系统为EulerOS 2.9环境下,经常遇到服务器重启后,操作系统内核莫名其妙升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。针对这些内核升级带来的困扰, 本文给出详细的避免重启误升级内核的解决方案。
- 本文旨在GPU VNT1裸金属服务器(操作系统为euler2.9)上安装GPU驱动版本为515.105.01、CUDA版本为11.7.1; 最后使用pytorch2.0进行nvidia环境的验证。 本文旨在GPU VNT1裸金属服务器(操作系统为euler2.9)上安装GPU驱动版本为515.105.01、CUDA版本为11.7.1; 最后使用pytorch2.0进行nvidia环境的验证。
- 在GPU裸金属服务器上搭建基于DCGM+DCGM EXPORTER+PROMETHUS+GRAFANA, 实现对GPU指标的采集以及可视化展示解决方案。 在GPU裸金属服务器上搭建基于DCGM+DCGM EXPORTER+PROMETHUS+GRAFANA, 实现对GPU指标的采集以及可视化展示解决方案。
- 利用华为云BMS和CES提供的能力,总结云主机监控采集可视化等解决方案。 利用华为云BMS和CES提供的能力,总结云主机监控采集可视化等解决方案。
上滑加载中
推荐直播
-
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
回顾中 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签