- 网络构建神经网络模型是由神经网络层和Tensor操作构成的,mindspore.nn提供了常见神经网络层的实现,在MindSpore中,Cell类是构建所有网络的基类,也是网络的基本单元。一个神经网络模型表示为一个Cell,它由不同的子Cell构成。使用这样的嵌套结构,可以简单地使用面向对象编程的思维,对神经网络结构进行构建和管理。下面我们将构建一个用于Mnist数据集分类的神经网络模型。... 网络构建神经网络模型是由神经网络层和Tensor操作构成的,mindspore.nn提供了常见神经网络层的实现,在MindSpore中,Cell类是构建所有网络的基类,也是网络的基本单元。一个神经网络模型表示为一个Cell,它由不同的子Cell构成。使用这样的嵌套结构,可以简单地使用面向对象编程的思维,对神经网络结构进行构建和管理。下面我们将构建一个用于Mnist数据集分类的神经网络模型。...
- AC算法,也称为Actor-Critic算法,是强化学习中的一种重要方法。它结合了策略梯度方法和价值函数方法的优点,主要由两部分组成:演员(Actor)和评论家(Critic)。演员(Actor):负责根据当前状态选择动作。通常采用策略函数 π(a|s) 来表示在给定状态 s 下采取动作 a 的概率。目标是学习一种策略,以最大化长期的累积奖励。评论家(Critic):评估演员采取的动作有多好... AC算法,也称为Actor-Critic算法,是强化学习中的一种重要方法。它结合了策略梯度方法和价值函数方法的优点,主要由两部分组成:演员(Actor)和评论家(Critic)。演员(Actor):负责根据当前状态选择动作。通常采用策略函数 π(a|s) 来表示在给定状态 s 下采取动作 a 的概率。目标是学习一种策略,以最大化长期的累积奖励。评论家(Critic):评估演员采取的动作有多好...
- 今天我们使用A2C算法进行训练。Actor-Critic Algorithm (A2C) 是一种强化学习算法,它结合了策略梯度方法(Actor)和价值函数方法(Critic)。在这个算法中,Actor 用来决定动作的策略,Critic 用来评估当前策略下的动作价值。 Actor-Critic 算法的工作原理Actor:基于当前状态选择一个动作,并通过策略函数 π(s,a∣θ)\pi(s, a... 今天我们使用A2C算法进行训练。Actor-Critic Algorithm (A2C) 是一种强化学习算法,它结合了策略梯度方法(Actor)和价值函数方法(Critic)。在这个算法中,Actor 用来决定动作的策略,Critic 用来评估当前策略下的动作价值。 Actor-Critic 算法的工作原理Actor:基于当前状态选择一个动作,并通过策略函数 π(s,a∣θ)\pi(s, a...
- 学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2。 并打通一个Ascend910训练到Ascend310推理的全流程思路。 > 在本篇章,我们首先开始训练阶段! 学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2。 并打通一个Ascend910训练到Ascend310推理的全流程思路。 > 在本篇章,我们首先开始训练阶段!
- 半猎豹(Half Cheetah)是一个基于MuJoCo的强化学习环境,由P. Wawrzyński在“A Cat-Like Robot Real-Time Learning to Run”中提出。这个环境中的半猎豹是一个由9个链接和8个关节组成的2D机器人(包括两个爪子)。在这个环境中,目标是通过施加扭矩在关节上使猎豹尽可能快地向前(向右)奔跑,正向奖励基于前进的距离,而向后移动则会得到负... 半猎豹(Half Cheetah)是一个基于MuJoCo的强化学习环境,由P. Wawrzyński在“A Cat-Like Robot Real-Time Learning to Run”中提出。这个环境中的半猎豹是一个由9个链接和8个关节组成的2D机器人(包括两个爪子)。在这个环境中,目标是通过施加扭矩在关节上使猎豹尽可能快地向前(向右)奔跑,正向奖励基于前进的距离,而向后移动则会得到负...
- PEFT是一种高效的微调方法,用于提高模型在特定任务上的性能,同时减少需要调整的参数数量。本文将带大家一起学习PEFT的方法和具体用法,会重点介绍常用的PEFT方法,并用相应示例来进行演示说明。 PEFT是一种高效的微调方法,用于提高模型在特定任务上的性能,同时减少需要调整的参数数量。本文将带大家一起学习PEFT的方法和具体用法,会重点介绍常用的PEFT方法,并用相应示例来进行演示说明。
- 摘要:昇思MindSpore技术公开课大模型专题课程新年第一课聚焦鹏城·脑海模型的训练过程。鹏城·脑海200B模型是拥有2千亿参数的自回归式语言模型,在中国算力网枢纽节点‘鹏城云脑Ⅱ’上,基于昇思MindSpore的多维分布式并行技术进行长期大规模训练,已完成1.8T token量的训练。 一、训练语料处理和使用1.脑海(PengCheng Mind)大模型计划脑海大模型计划致力于构建一个以... 摘要:昇思MindSpore技术公开课大模型专题课程新年第一课聚焦鹏城·脑海模型的训练过程。鹏城·脑海200B模型是拥有2千亿参数的自回归式语言模型,在中国算力网枢纽节点‘鹏城云脑Ⅱ’上,基于昇思MindSpore的多维分布式并行技术进行长期大规模训练,已完成1.8T token量的训练。 一、训练语料处理和使用1.脑海(PengCheng Mind)大模型计划脑海大模型计划致力于构建一个以...
- Transformer模型作为一种革命性的神经网络架构,并在诸多任务中取得了显著的成功。但是Transformer在处理长序列时面临内存和计算复杂度的问题,因为其复杂度与序列长度呈二次关系一直未业内人员所诟病。RWKV作为对Transformers模型的替代,正在引起越来越多的开发人员的关注。RWKV模型以简单、高效、可解释性强等特点,成为自然语言处理领域的新宠。 Transformer模型作为一种革命性的神经网络架构,并在诸多任务中取得了显著的成功。但是Transformer在处理长序列时面临内存和计算复杂度的问题,因为其复杂度与序列长度呈二次关系一直未业内人员所诟病。RWKV作为对Transformers模型的替代,正在引起越来越多的开发人员的关注。RWKV模型以简单、高效、可解释性强等特点,成为自然语言处理领域的新宠。
- 资深人工智能大咖带你深度解析LLaMA架构,深入理解LLaMA框架与Transformers框架的区别,LLaMA推理过程以及内部函数定义,最后大咖带你比较国内大模型目前采用的总体技术方案 资深人工智能大咖带你深度解析LLaMA架构,深入理解LLaMA框架与Transformers框架的区别,LLaMA推理过程以及内部函数定义,最后大咖带你比较国内大模型目前采用的总体技术方案
- Vanilla MoE(Mixture of Experts)Vanilla MoE(Mixture of Experts) Export Network是一个典型的集成学习模型,它利用多个“专家”(即子模型或组件)来共同处理一个任务。每个专家都有其独特的优势,适用于不同的数据子集。而Gating Network的作用是根据输入样本的特征来动态地决定每个专家的输出权重,这样模型就根据输入的特... Vanilla MoE(Mixture of Experts)Vanilla MoE(Mixture of Experts) Export Network是一个典型的集成学习模型,它利用多个“专家”(即子模型或组件)来共同处理一个任务。每个专家都有其独特的优势,适用于不同的数据子集。而Gating Network的作用是根据输入样本的特征来动态地决定每个专家的输出权重,这样模型就根据输入的特...
- CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,它采用Transformer自回归架构,在超万亿高质量语料上进行预训练,拥有强大的基础能力。本文分别从模型结构、数据格式、微调及推理演示三个方面带大家全方位了解CPM-Bee大模型。 CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,它采用Transformer自回归架构,在超万亿高质量语料上进行预训练,拥有强大的基础能力。本文分别从模型结构、数据格式、微调及推理演示三个方面带大家全方位了解CPM-Bee大模型。
- 本周日(2月4日)将为大家带来RWKV1-4的解析,我们将一同见证RNN的兴衰发展与Transformers的迅猛崛起,畅聊Transformers的哪些优劣势有待我们发掘,看新RNN——RWKV能否“击败”Transformer再续往日“辉煌”。游历大模型发展历程,开阔大模型技术视野,一切尽在本周日下午14点 昇思MindSpore技术公开课——第九讲 RWKV1-4,敬请期待! 本周日(2月4日)将为大家带来RWKV1-4的解析,我们将一同见证RNN的兴衰发展与Transformers的迅猛崛起,畅聊Transformers的哪些优劣势有待我们发掘,看新RNN——RWKV能否“击败”Transformer再续往日“辉煌”。游历大模型发展历程,开阔大模型技术视野,一切尽在本周日下午14点 昇思MindSpore技术公开课——第九讲 RWKV1-4,敬请期待!
- 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动微分、分布式训练和推理、模型部署等功能,支持多种硬件平台,包括CPU、GPU和Ascend AI 处理器。MindSpore采用图和算子相结合的编程模型,能够高效地处理复杂的深度学习任务。它具有灵活的设计、高效的性能和易于使用的接口,使开发者能够更快地开发和部署AI应用。 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动微分、分布式训练和推理、模型部署等功能,支持多种硬件平台,包括CPU、GPU和Ascend AI 处理器。MindSpore采用图和算子相结合的编程模型,能够高效地处理复杂的深度学习任务。它具有灵活的设计、高效的性能和易于使用的接口,使开发者能够更快地开发和部署AI应用。
- Language-driven Semantic Segmentation利用mindspore框架复现 简介语义分割是计算机视觉中的一个核心问题,其目的是将图像分割成具有各自语义类别标签的相关区域。大多数现有的语义分割方法都假定可以潜在地分配给像素一组有限的语义类标签。康奈尔大学的Boyi Li等人提出了 LSeg,一种用于语言驱动的语义图像分割的新模型。模型架构图如下:通过上面这个模型... Language-driven Semantic Segmentation利用mindspore框架复现 简介语义分割是计算机视觉中的一个核心问题,其目的是将图像分割成具有各自语义类别标签的相关区域。大多数现有的语义分割方法都假定可以潜在地分配给像素一组有限的语义类标签。康奈尔大学的Boyi Li等人提出了 LSeg,一种用于语言驱动的语义图像分割的新模型。模型架构图如下:通过上面这个模型...
- CUDA编程-ReduceSum优化记录(文字+图解),学习如何优化CUDA编程的入门基础ReduceSum。 CUDA编程-ReduceSum优化记录(文字+图解),学习如何优化CUDA编程的入门基础ReduceSum。
上滑加载中
推荐直播
-
物联网资深专家带你轻松构建AIoT智能场景应用
2024/11/21 周四 16:30-18:00
管老师 华为云IoT DTSE技术布道师
如何轻松构建AIoT智能场景应用?本期直播将聚焦华为云设备接入平台,结合AI、鸿蒙(OpenHarmony)、大数据等技术,实现物联网端云协同创新场景,教您如何打造更有实用性及创新性的AIoT行业标杆应用。
回顾中 -
Ascend C算子编程之旅:基础入门篇
2024/11/22 周五 16:00-17:30
莫老师 昇腾CANN专家
介绍Ascend C算子基本概念、异构计算架构CANN和Ascend C基本概述,以及Ascend C快速入门,夯实Ascend C算子编程基础
即将直播 -
深入解析:华为全栈AI解决方案与云智能开放能力
2024/11/22 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播我们将重点为大家介绍华为全栈全场景AI解决方案以和华为云企业智能AI开放能力。旨在帮助开发者深入理解华为AI解决方案,并能够更加熟练地运用这些技术。通过洞悉华为解决方案,了解人工智能完整生态链条的构造。
去报名
热门标签