GPU加速云服务器 GACS_标签_开发者

博客(196)
视频(3)
论坛(0)
云声(51)
代码示例(0)

[问题求助] 在Modelarts上训练太慢啦，监控GPU利用率和显卡占用都为0

嘿嘿发 发表于2020-04-29 17:23:25 2020-04-29 17:23:25 最后回复角动量 2020-04-30 19:03:02
948 2

AI开发平台ModelArts GPU加速云服务器 GACS 机器学习
[问题求助] 在使用在notebook上训练gpu的负载一直是0

环境为tf 1.8GPU为GPU: 1*v100NV3如图：训练的时候很慢，输入nvidia-smi发现gpu负载一直是0，这似乎一直没有用到gpu

yzy 发表于2020-04-29 15:10:03 2020-04-29 15:10:03 最后回复用户 2020-04-30 17:07:01
1437 7

GPU加速云服务器 GACS 机器学习
[问题求助] 为什么在免费的GPU终端下可以用pip从华为镜像上下载第三方包却ping不通百度，而且本机也无法被外网ping不通

嘿嘿发 发表于2020-04-13 17:05:45 2020-04-13 17:05:45 最后回复 T_c_D 2020-04-15 12:53:53
1835 3

GPU加速云服务器 GACS 镜像服务 IMS
[问题求助] modelarts 使用notebook开发环境，无法使用gpu怎么解决

如题，在Teminal可看到GPU，但是notebook找不到GPU，GPU无法使用。求大佬给个建议

单曲循环 发表于2020-03-29 11:02:17 2020-03-29 11:02:17 最后回复用户 2020-03-30 09:04:25
1257 1

AI开发平台ModelArts GPU加速云服务器 GACS
Cloud VR全栈服务指导系列-管理员如何配置新的GPU服务器并加入到负载均衡

全栈服务系统中，通过一台后台服务器可调配多台GPU服务器。在添加新的GPU服务器时，需在后台服务器上添加新的GPU服务器信息，而在新的GPU服务器上进行相关配置，使二者构建交互通道。配置新GPU服务器的主要步骤如下： 1.登录Cloud VR后台管理系统网址 2.服务器管理操作 3.GPU服务器文件配置1.登录Cloud VR后台管理系统网址后台管理系统主要用于后台管理员对系统的用户、服务器、游戏内容、订单等进行整体监控与管理，其网址为：http://ip/vradmin（ip指后台CentOS服务器的IP地址）。账号登录界面如下：在上图中输入管理员账号与密码后，点击按钮进行图形验证，验证成功则进入后台管理界面管理。2.服务器管理操作进入后台管理界面后可看到网页左侧菜单栏如下（左），点击“服务器管理”，出现三个选项（右）。点击“云服务器”，出现如下界面：然后点击“添加服务器”按钮，弹出添加服务器窗口添加服务器需要编辑部分：服务器区域、服务器名称、服务器ID、服务器IP、服务器备注。a. 服务器区域选择时，可先在“区域列表”中进行添加，添加结果会在上图中的下拉选项中显示。（例如添加的GPU服务器属于上海区域，可先在“区域列表”中添加区域“上海”，然后在服务器区域下拉框中选择“上海”。）b. 服务器名称可自行设置c. 服务器IP为GPU服务器IPd. 服务器ID可自行设置e. 备注可空置编辑完成后，点击“确认添加”则新GPU服务器添加成功，可 “云服务器”界面查看所有服务器信息，如下图下半部分所示： 3.GPU服务器文件配置 GPU云服务器添加成功后，需对该GPU云服务器上的GameMonitor程序的config.json文件进行相关配置，具体配置如下：“ServerId”修改为后台管理系统中该服务器添加时所设的“服务器ID”“WebApiAddr”修改为“tcp://ip:5556”（ ip指CentOS后台管理服务器的IP地址）然后重新启动GameMonitor程序，则新的GPU服务器添加成功。

mLAB 发表于2020-02-06 15:00:34 2020-02-06 15:00:34 最后回复 mLAB 2020-02-06 15:00:34
2762 0

负载均衡 GPU加速云服务器 GACS 全栈专属服务 FCS
[Atlas300] 推理结果存在精度损失

目前我的模型存在精度损失，导致结果完全不正确，我想先确认一下我的图片预处理是不是正确的：在GPU上的图片预处理是：resize (416,416,3) -> 归一化：像素值除以127.5再减1在300上的预处理：预处理引擎resize(416,416) dvpp处理的YUV格式 -> 归一化在转换模型时做:配置为有点疑惑的是这个input Image Size是（512，416）是不是因为Dvpp处理之后是128位对齐？还有个疑惑是，在GPU上图片BGR格式输入大小是（416*416*3=519168），而在300上YUV格式输入大小是（319488=512*416*1.5 ？）不知道以上至模型推理前对图片的操作GPU和300所做是否等效，不然我就考虑是后半部分代码出了问题

myKlaus 发表于2019-12-03 11:08:46 2019-12-03 11:08:46 最后回复 zengzy_hw 2019-12-03 15:36:21
2870 3

GPU加速云服务器 GACS
[问题求助] 看到Atlas 200 DK安装tensorflow我突发奇想能不能安装tensorflow-gpu?

看到Atlas 200 DK安装tensorflow我突发奇想能不能安装tensorflow-gpu?板子上有GPU吗，如果没有，那么安装tensorflow有什么用？还不如在自己电脑跑CPU，还有如果板子上跑tensorflow，那么问题来了，怎么和自己AICore对接起来运行更快？我们知道板子就是用来推理，如果用tensorflow在板子上推理，在加上板子的芯片，那就不错了。问题是支持吗？

futureflsl 发表于2019-10-26 16:52:02 2019-10-26 16:52:02 最后回复山人_mhc 2019-10-28 19:31:03
2466 1

GPU加速云服务器 GACS TensorFlow
[问题求助] GPU和Atlas200DK推理结果差异巨大

我使用yolov3-tiny的caffe模型转换得到了Atlas200DK支持的om模型，没有进行量化和加密，没有减均值，推理能够得到输出数据，同样的caffe模型在GPU上计算输出的数据在0-1之间，但是利用Atlas200DK推理得到的数据非常大，基本都大于1，yolov3-tiny包含两个输出，第一个输出阶段的算子均为conv,pooling等常规算子，结果差异巨大，希望给个排查问题的思路，谢谢！

Lilyang 发表于2019-10-25 09:44:11 2019-10-25 09:44:11 最后回复 Sawyer117 2019-10-26 04:29:45
3187 7

GPU加速云服务器 GACS
[问题求助] Atlas 200DK 有内置GPU吗

RT，开发板没有视频输出接口，有内置的GPU吗？

byronwind 发表于2019-09-12 19:06:30 2019-09-12 19:06:30 最后回复 byronwind 2019-09-25 20:12:24
2382 2

GPU加速云服务器 GACS
[问题求助] #化鲲为鹏，我有话说# 求关于GPU Turbo的知识

化鲲为鹏，我有话说华为吓人技术GPU Turbo技术发布了好久，的确的确会给手机性能带来很大的提升，尤其是打游戏时，但是官方给的资料寥寥无几，求大神科普。落款：云南大学

simonzhao 发表于2019-09-05 17:54:54 2019-09-05 17:54:54 最后回复 simonzhao 2019-09-05 17:54:54
3850 0

GPU加速云服务器 GACS
[问题求助] 化鲲为鹏,我有话说——请问ARM服务器是否有GPU的支持

#化鲲为鹏,我有话说#因为实际场景中需要用到深度学习的识别模型，所以目前采用还是x86带GPU加速的服务器，想问下如果迁移到ARM服务器上，是否有GPU的相关支持，网上找了有关ARM的GPU方式是树莓派+神经计算棒，华为ARM服务器啥时候能上线相关的GPU服务呢

carlpc 发表于2019-09-03 19:31:38 2019-09-03 19:31:38 最后回复阿奇@汪汪队 2020-07-10 16:31:00
5656 1

ARM GPU加速云服务器 GACS
[公告] GPU使用问题

目前华为云官网已有训练作业的使用文档，以及训练作业的视频操作演示。训练作业出错，可以根据作业运行日志自己定位原因。如果定位不出来，可以来ModelArts-Lab提issue求助，或者在华为云官网提工单求助。

倪平宇 发表于2019-08-29 11:18:29 2019-08-29 11:18:29 最后回复 Joey啊 2019-08-29 17:24:20
1933 2

GPU加速云服务器 GACS 机器学习
[获奖公告] 【华为云•微话题】“如何利用GPU云资源训练自己的TensorFlow模型？”

微话题 “如何利用GPU云资源训练自己的TensorFlow模型？”希望大家能够畅所欲言。如果大家有其他任何与TensorFlow模型相关的问题，也可以在本帖回复直接咨询云享专家江魁。=====【华为云·微话题】如何利用GPU云资源训练自己的TensorFlow模型？ =====人工智能的火热，带来了一波学习TensorFlow深度学习框架的热潮。聊深度学习免不了要用GPU，但目前一块GPU费用较高，对于个人学习者和创业公司来讲的话，按需配置的云GPU服务器是一个不错的选项。华为云提供了按需配置的GPU服务器。云资源购买很方便，但GPU服务器的配置安装往往依赖一些Nvidia开发的组件，其文档晦涩难懂，很容易把新手拒之门外。幸运的是，在这个Docker流行的时代，有一些工作可以用容器化的服务来简化。Nvidia也开发了Nvidia-docker支持容器化。今天我们就来讨论一下如何利用GPU云资源训练自己的TensorFlow模型？期望看到大家精彩的评论：1、你是如何训练自己的TensorFlow模型？2、你在华为云服务器上训练自己的TensorFlow模型有没有碰到什么问题？如何解决的？3、你尝试着在GPU云资源部署你的Nvidia-docker时最大的收获是什么？4、你的TensorFlow训练的模型在用Restful API发布时有没有碰到什么问题？微话题活动：参与本次微话题讨论，有机会获得优质评论奖，赢取华为小天鹅蓝牙音箱。活动时间：2019年7月24日-8月7日参与方式：直接在本帖回复关于以上4个问题中的任意1个或多个问题的理解或评论获奖方式：活动结束后，将由云享专家江魁选取出2名优质评论奖，各送出华为小天鹅蓝牙音箱1个。评奖标准：回复话题数量和内容质量。优质评论：云的记忆：1、你是如何训练自己的TensorFlow模型？接触人工智能一年多，报了网课，前段时间第一次在华为提供的Modelarts AI实践营上训练了花草识别，猫狗识别以及一个YOLO3模型。也是通过你们华为云第一次训练自己的第一个TensorFlow模型，算是入门，感谢华为。 2、你在华为云服务器上训练自己的TensorFlow模型有没有碰到什么问题？记得第二期实践的时候，上传数据集到你们对象存储的那个桶，通过你们那个 Browers传东西传到 66%的时间就一直传不上去了，这个东西是个大的bug，需要修复，后面是通过另外一种命令行的方式上传的，后面多次遇到其他的一些大大小小的问题，但是都解决了，后面遇到再反馈 3、你尝试着在GPU云资源部署你的Nvidia-docker时最大的收获是什么？没有实践过，通过你们Modelarts 学会做深度学习的时候，后面有计划这样去部署。因为感觉更自由。 4、你的TensorFlow训练的模型在用Restful API发布时有没有碰到什么问题？还没遇到过。 buyi：利用TensorFlow,然后基于 CNN 数字识别的代码，采用简单的卷积神经网络模型，模型为：输入 - 第一层卷积 - 第一层池化 - 第二层卷积 - 第二层池化 - 第一层全连接 - 第二层全连接。实现1—9的数字识别，根据ModelArts开发步骤，总结下列流程。1. 训练数据集下载上传2. CNN 模型构建3. 创建一个源文件 mnist_model.py123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_function import argparseimport sysimport tempfile from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf FLAGS = None def deepnn(x): with tf.name_scope('reshape'): x_image = tf.reshape(x, [-1, 28, 28, 1]) #第一层卷积层，卷积核为5*5，生成32个feature maps. with tf.name_scope('conv1'): W_conv1 = weight_variable([5, 5, 1, 32]) b_conv1 = bias_variable([32]) h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1) #激活函数采用relu # 第一层池化层，下采样2. with tf.name_scope('pool1'): h_pool1 = max_pool_2x2(h_conv1) # 第二层卷积层，卷积核为5*5，生成64个feature maps with tf.name_scope('conv2'): W_conv2 = weight_variable([5, 5, 32, 64]) b_conv2 = bias_variable([64]) h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)#激活函数采用relu # 第二层池化层，下采样2. with tf.name_scope('pool2'): h_pool2 = max_pool_2x2(h_conv2) #第一层全连接层，将7x7x64个feature maps与1024个features全连接 with tf.name_scope('fc1'): W_fc1 = weight_variable([7 * 7 * 64, 1024]) b_fc1 = bias_variable([1024]) h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64]) h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1) #dropout层，训练时候随机让某些隐含层节点权重不工作 with tf.name_scope('dropout'): keep_prob = tf.placeholder(tf.float32) h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob) # 第二层全连接层，1024个features和10个features全连接 with tf.name_scope('fc2'): W_fc2 = weight_variable([1024, 10]) b_fc2 = bias_variable([10]) y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2 return y_conv, keep_prob #卷积def conv2d(x, W): return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME') #池化def max_pool_2x2(x): return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')#权重def weight_variable(shape): initial = tf.truncated_normal(shape, stddev=0.1) return tf.Variable(initial) #偏置def bias_variable(shape): initial = tf.constant(0.1, shape=shape) return tf.Variable(initial) 训练模型123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_function import argparseimport sysimport tempfile from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf import mnist_model FLAGS = None def main(_): mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True) #输入变量 x = tf.placeholder(tf.float32, [None, 784]) #输出变量，数字是1-10 y_ = tf.placeholder(tf.float32, [None, 10]) # 构建网络，输入—>第一层卷积—>第一层池化—>第二层卷积—>第二层池化—>第一层全连接—>第二层全连接 y_conv, keep_prob = mnist_model.deepnn(x) #第一步对网络最后一层的输出做一个softmax，第二步将softmax输出和实际样本做一个交叉熵 #cross_entropy返回的是向量 with tf.name_scope('loss'): cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y_conv) #求cross_entropy向量的平均值得到交叉熵 cross_entropy = tf.reduce_mean(cross_entropy) #AdamOptimizer是Adam优化算法：一个寻找全局最优点的优化算法，引入二次方梯度校验 with tf.name_scope('adam_optimizer'): train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) #在测试集上的精确度 with tf.name_scope('accuracy'): correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1)) correct_prediction = tf.cast(correct_prediction, tf.float32) accuracy = tf.reduce_mean(correct_prediction) #将神经网络图模型保存本地 graph_location = tempfile.mkdtemp() print('Saving graph to: %s' % graph_location) train_writer = tf.summary.FileWriter(graph_location) train_writer.add_graph(tf.get_default_graph()) #将训练的网络保存下来 saver = tf.train.Saver() with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for i in range(5000): batch = mnist.train.next_batch(50) if i % 100 == 0: train_accuracy = accuracy.eval(feed_dict={ x: batch[0], y_: batch[1], keep_prob: 1.0})#输入是字典，表示tensorflow被feed的值 print('step %d, training accuracy %g' % (i, train_accuracy)) train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5}) test_accuracy = 0 for i in range(200): batch = mnist.test.next_batch(50) test_accuracy += accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep_prob: 1.0}) / 200; print('test accuracy %g' % test_accuracy) save_path = saver.save(sess,"mnist_cnn_model.ckpt") if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument('--data_dir', type=str, default='./', help='Directory for storing input data') FLAGS, unparsed = parser.parse_known_args() tf.app.run(main=main, argv=[sys.argv[0]] + unparsed) for i in range(200): batch = mnist.test.next_batch(50) test_accuracy += accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep_prob: 1.0}) / 200; print('test accuracy %g' % test_accuracy) save_path = saver.save(sess,"mnist_cnn_model.ckpt") if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument('--data_dir', type=str, default='./', help='Directory for storing input data') FLAGS, unparsed = parser.parse_known_args() tf.app.run(main=main, argv=[sys.argv[0]] + unparsed) 4. 然后执行5. 实现预测代码创建源文件 predict_mnist_model.py12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_function import argparseimport sysimport tempfile from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf import mnist_modelfrom PIL import Image, ImageFilter def load_data(argv): grayimage = Image.open(argv).convert('L') width = float(grayimage.size[0]) height = float(grayimage.size[1]) newImage = Image.new('L', (28, 28), (255)) if width > height: nheight = int(round((20.0/width*height),0)) if (nheigth == 0): nheigth = 1 img = grayimage.resize((20,nheight), Image.ANTIALIAS).filter(ImageFilter.SHARPEN) wtop = int(round(((28 - nheight)/2),0)) newImage.paste(img, (4, wtop)) else: nwidth = int(round((20.0/height*width),0)) if (nwidth == 0): nwidth = 1 img = grayimage.resize((nwidth,20), Image.ANTIALIAS).filter(ImageFilter.SHARPEN) wleft = int(round(((28 - nwidth)/2),0)) newImage.paste(img, (wleft, 4)) tv = list(newImage.getdata()) tva = [ (255-x)*1.0/255.0 for x in tv] return tva def main(argv): imvalue = load_data(argv) x = tf.placeholder(tf.float32, [None, 784]) y_ = tf.placeholder(tf.float32, [None, 10]) y_conv, keep_prob = mnist_model.deepnn(x) y_predict = tf.nn.softmax(y_conv) init_op = tf.global_variables_initializer() saver = tf.train.Saver() with tf.Session() as sess: sess.run(init_op) saver.restore(sess, "mnist_cnn_model.ckpt") prediction=tf.argmax(y_predict,1) predint = prediction.eval(feed_dict={x: [imvalue],keep_prob: 1.0}, session=sess) print (predint[0]) if __name__ == "__main__":main(sys.argv[1])这样就可进行一个简单的数字预测，利用率TensorFlow相关函数和简单神经网络。

云集而动 发表于2019-08-27 15:23:37 2019-08-27 15:23:37 最后回复云集而动 2019-08-27 15:23:37
3460 0

GPU加速云服务器 GACS 深度学习 TensorFlow 机器学习
[技术干货] 【云享专家•微话题】“如何利用GPU云资源训练自己的TensorFlow模型？”

微话题 “如何利用GPU云资源训练自己的TensorFlow模型？”希望大家能够畅所欲言。如果大家有其他任何与TensorFlow模型相关的问题，也可以在本帖回复直接咨询云享专家江魁。=====【华为云·微话题】如何利用GPU云资源训练自己的TensorFlow模型？ =====人工智能的火热，带来了一波学习TensorFlow深度学习框架的热潮。聊深度学习免不了要用GPU，但目前一块GPU费用较高，对于个人学习者和创业公司来讲的话，按需配置的云GPU服务器是一个不错的选项。华为云提供了按需配置的GPU服务器。云资源购买很方便，但GPU服务器的配置安装往往依赖一些Nvidia开发的组件，其文档晦涩难懂，很容易把新手拒之门外。幸运的是，在这个Docker流行的时代，有一些工作可以用容器化的服务来简化。Nvidia也开发了Nvidia-docker支持容器化。今天我们就来讨论一下如何利用GPU云资源训练自己的TensorFlow模型？期望看到大家精彩的评论：1、你是如何训练自己的TensorFlow模型？2、你在华为云服务器上训练自己的TensorFlow模型有没有碰到什么问题？如何解决的？3、你尝试着在GPU云资源部署你的Nvidia-docker时最大的收获是什么？4、你的TensorFlow训练的模型在用Restful API发布时有没有碰到什么问题？微话题活动：参与本次微话题讨论，有机会获得优质评论奖，赢取华为小天鹅蓝牙音箱。活动时间：2019年7月24日-8月7日参与方式：直接在本帖回复关于以上4个问题中的任意1个或多个问题的理解或评论获奖方式：活动结束后，将由云享专家江魁选取出2名优质评论奖，各送出华为小天鹅蓝牙音箱1个。评奖标准：回复话题数量和内容质量。

Edison 发表于2019-07-23 20:22:21 2019-07-23 20:22:21 最后回复云集而动 2019-08-23 14:23:46
16238 15

GPU加速云服务器 GACS TensorFlow 机器学习
[线上活动] 【立即报名分享赢大礼】华为云专家技术公开课第四期：解码"AI大杀器"

人工智能的火热，带来了一波学习TensorFlow深度学习框架的热潮。聊深度学习免不了要用GPU，但目前GPU费用较高，对于个人学习者和创业公司来讲的话，按需配置的云GPU服务器是一个不错的选项。华为云提供了按需配置的GPU服务器，云资源购买很方便，但GPU服务器的配置安装往往依赖一些Nvidia开发的组件，如何快速进行部署，可以用容器化的服务来简化，华为云专家技术公开课邀-请到云享专家江魁，对这套开发组件作一次系统介绍。【立即报名】点击报名链接，进行线上预约观看https://developer.huaweicloud.com/signup/da8435fc6e274e93868a1cb37ad2eebd【你分享，我送礼】了解专家课程详情：

我们都是云专家 发表于2019-07-19 11:06:34 2019-07-19 11:06:34 最后回复我们都是云专家 2019-08-23 09:26:37
6481 2

HCDE GPU加速云服务器 GACS

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript