- 用ModelArts实现人脸识别算法的构建,再部署至rk3399ProD上运行。 用ModelArts实现人脸识别算法的构建,再部署至rk3399ProD上运行。
- 本实验将使用MindSpore深度学习框架,使用鸢尾花数据集,搭建简单的全连接神经网络,完成鸢尾花种类分类任务。 本实验将使用MindSpore深度学习框架,使用鸢尾花数据集,搭建简单的全连接神经网络,完成鸢尾花种类分类任务。
- 计导产学实验2 计导产学实验2
- 摘要实验报告记录了我在进行结课作业时完成的所有任务,整理了完成这些任务所需要的必要的基础知识、完成实验过程中搜集的资料,记录了我对一些模型项目代码的改进、重构的详细细节,以及在进行实验中遇到的错误及其修正。实验报告主要包含以下两部分内容,它们将顺序出现在后面的小节中:两个华为架构、模型相关的TTS实验:其中第一个实现使用了华为的机器学习的平台和架构,第二个实验围绕华为诺亚提出的Grad-TT... 摘要实验报告记录了我在进行结课作业时完成的所有任务,整理了完成这些任务所需要的必要的基础知识、完成实验过程中搜集的资料,记录了我对一些模型项目代码的改进、重构的详细细节,以及在进行实验中遇到的错误及其修正。实验报告主要包含以下两部分内容,它们将顺序出现在后面的小节中:两个华为架构、模型相关的TTS实验:其中第一个实现使用了华为的机器学习的平台和架构,第二个实验围绕华为诺亚提出的Grad-TT...
- 问题现象:日志中出现如下错误。解决办法:可能的原因:1. 从错误看NCCL_SOCKET_IFNAME设置错误解决办法1:1. https://support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0038.html解决办法2:1. 【推荐】升级NCCL版本至2.14,可使用ModelArts提供的预置镜像。参考:https... 问题现象:日志中出现如下错误。解决办法:可能的原因:1. 从错误看NCCL_SOCKET_IFNAME设置错误解决办法1:1. https://support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0038.html解决办法2:1. 【推荐】升级NCCL版本至2.14,可使用ModelArts提供的预置镜像。参考:https...
- 笔者在华为云购买了GPU裸金属服务器,使用ubuntu镜像, 想更换华为云内网源,本文给出指导。 笔者在华为云购买了GPU裸金属服务器,使用ubuntu镜像, 想更换华为云内网源,本文给出指导。
- # 作用:出现异常可以启动设置成TRACE进行调试,但是会影响性能NCCL_DEBUG=INFO# 出现NCCL timeout 可以适当调大NCCL_IB_TIMEOUT=18NCCL_IB_RETRY_CNT=16# 请不要修改,ModelArts会提前预置好NCCL_IB_HCA=^mlx5_bond_0NCCL_SOCKET_IFNAME="=bond0,eth0,enp218s0,... # 作用:出现异常可以启动设置成TRACE进行调试,但是会影响性能NCCL_DEBUG=INFO# 出现NCCL timeout 可以适当调大NCCL_IB_TIMEOUT=18NCCL_IB_RETRY_CNT=16# 请不要修改,ModelArts会提前预置好NCCL_IB_HCA=^mlx5_bond_0NCCL_SOCKET_IFNAME="=bond0,eth0,enp218s0,...
- 背景:算法来源:图像分类-ResNet_v1_50 (huaweicloud.com)算法名称:图像分类-ResNet_v1_50使用自己的数据去训练,训练失败,界面上提示显存不足可能的原因:1. 显存不足原因:batch_size过大解决办法:逐步减少batch_size2. 图片有问题在日志里面观察到如下错误比如:tensorflow.python.framework.errors_im... 背景:算法来源:图像分类-ResNet_v1_50 (huaweicloud.com)算法名称:图像分类-ResNet_v1_50使用自己的数据去训练,训练失败,界面上提示显存不足可能的原因:1. 显存不足原因:batch_size过大解决办法:逐步减少batch_size2. 图片有问题在日志里面观察到如下错误比如:tensorflow.python.framework.errors_im...
- 背景在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。分析方法1. 明确具体是哪个host无法解析2. 明确此host来源3. 根据如下可能的原因,进行针对性修改a. 域名真的不存在b. dns服务器配置错误c. dns服务器异常几种情况:1. 分布式作业中出现worker1或者其他worker的域名无法解析原因:这种... 背景在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。分析方法1. 明确具体是哪个host无法解析2. 明确此host来源3. 根据如下可能的原因,进行针对性修改a. 域名真的不存在b. dns服务器配置错误c. dns服务器异常几种情况:1. 分布式作业中出现worker1或者其他worker的域名无法解析原因:这种...
- 有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。 有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。
- 计算卡不对外出售硬件,只出售资源--两种形式:买时长&包月包周期 或 专属资源池(一般8卡起步) 2023年7月底,发行910B,性能对标V100(FP32,Tops105)建议使用mindspore框架,有对昇腾硬件的专属优化,云端运行在欧拉系统上,但是感知不到;但是也可以替换掉ModelArts, 使用客户自有的框架,云这边只作为GPU提供商提供裸机用ModelArts无法搜索到Obs... 计算卡不对外出售硬件,只出售资源--两种形式:买时长&包月包周期 或 专属资源池(一般8卡起步) 2023年7月底,发行910B,性能对标V100(FP32,Tops105)建议使用mindspore框架,有对昇腾硬件的专属优化,云端运行在欧拉系统上,但是感知不到;但是也可以替换掉ModelArts, 使用客户自有的框架,云这边只作为GPU提供商提供裸机用ModelArts无法搜索到Obs...
- 观察自定义镜像的moxing版本是否比较低,比如低于2.x.x版本。如果自定义镜像中的moxing版本比较低,针对大规模数据下载容易造成下载性能差,下载卡死的问题。推荐安装比较新的moxing版本。自定义镜像如何安装Moxing?_AI开发平台ModelArts_常见问题_训练作业_功能咨询_华为云 (huaweicloud.com) 观察自定义镜像的moxing版本是否比较低,比如低于2.x.x版本。如果自定义镜像中的moxing版本比较低,针对大规模数据下载容易造成下载性能差,下载卡死的问题。推荐安装比较新的moxing版本。自定义镜像如何安装Moxing?_AI开发平台ModelArts_常见问题_训练作业_功能咨询_华为云 (huaweicloud.com)
- 本文给出Atlas800(鲲鹏920+昇腾910处理器)训练服务器硬件相关指南,包括三维视图、备件信息,HCCL常用方法以及网卡配置信息。 本文给出Atlas800(鲲鹏920+昇腾910处理器)训练服务器硬件相关指南,包括三维视图、备件信息,HCCL常用方法以及网卡配置信息。
- 训练作业创建中一般原因 训练作业创建中一般原因
- 记录自己的学习过程 记录自己的学习过程
上滑加载中
推荐直播
-
探秘仓颉编程语言:华为开发者空间的创新利器
2025/02/22 周六 15:00-16:30
华为云讲师团
本期直播将与您一起探秘颉编程语言上线华为开发者空间后,显著提升开发效率,在智能化开发支持、全场景跨平台适配能力、工具链与生态完备性、语言简洁与高性能特性等方面展现出的独特优势。直播看点: 1.java转仓颉的小工具 2.仓颉动画三方库lottie 3.开发者空间介绍及如何在空间用仓颉编程语言开发
即将直播 -
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
去报名 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签