- PEFT是一种高效的微调方法,用于提高模型在特定任务上的性能,同时减少需要调整的参数数量。本文将带大家一起学习PEFT的方法和具体用法,会重点介绍常用的PEFT方法,并用相应示例来进行演示说明。 PEFT是一种高效的微调方法,用于提高模型在特定任务上的性能,同时减少需要调整的参数数量。本文将带大家一起学习PEFT的方法和具体用法,会重点介绍常用的PEFT方法,并用相应示例来进行演示说明。
- 摘要:昇思MindSpore技术公开课大模型专题课程新年第一课聚焦鹏城·脑海模型的训练过程。鹏城·脑海200B模型是拥有2千亿参数的自回归式语言模型,在中国算力网枢纽节点‘鹏城云脑Ⅱ’上,基于昇思MindSpore的多维分布式并行技术进行长期大规模训练,已完成1.8T token量的训练。 一、训练语料处理和使用1.脑海(PengCheng Mind)大模型计划脑海大模型计划致力于构建一个以... 摘要:昇思MindSpore技术公开课大模型专题课程新年第一课聚焦鹏城·脑海模型的训练过程。鹏城·脑海200B模型是拥有2千亿参数的自回归式语言模型,在中国算力网枢纽节点‘鹏城云脑Ⅱ’上,基于昇思MindSpore的多维分布式并行技术进行长期大规模训练,已完成1.8T token量的训练。 一、训练语料处理和使用1.脑海(PengCheng Mind)大模型计划脑海大模型计划致力于构建一个以...
- Transformer模型作为一种革命性的神经网络架构,并在诸多任务中取得了显著的成功。但是Transformer在处理长序列时面临内存和计算复杂度的问题,因为其复杂度与序列长度呈二次关系一直未业内人员所诟病。RWKV作为对Transformers模型的替代,正在引起越来越多的开发人员的关注。RWKV模型以简单、高效、可解释性强等特点,成为自然语言处理领域的新宠。 Transformer模型作为一种革命性的神经网络架构,并在诸多任务中取得了显著的成功。但是Transformer在处理长序列时面临内存和计算复杂度的问题,因为其复杂度与序列长度呈二次关系一直未业内人员所诟病。RWKV作为对Transformers模型的替代,正在引起越来越多的开发人员的关注。RWKV模型以简单、高效、可解释性强等特点,成为自然语言处理领域的新宠。
- 本次大赛由量子信息网络产业联盟主办,昇思MindSpore Quantum社区承办,多所高校和单位联合举办。开发者将全面体验全新一代通用量子计算框架MindSpore Quantum。全新的竞赛体验,卓越的算法性能,活跃的开源社区!诚邀您报名参赛,勇攀量子世界的高峰! 本次大赛由量子信息网络产业联盟主办,昇思MindSpore Quantum社区承办,多所高校和单位联合举办。开发者将全面体验全新一代通用量子计算框架MindSpore Quantum。全新的竞赛体验,卓越的算法性能,活跃的开源社区!诚邀您报名参赛,勇攀量子世界的高峰!
- 资深人工智能大咖带你深度解析LLaMA架构,深入理解LLaMA框架与Transformers框架的区别,LLaMA推理过程以及内部函数定义,最后大咖带你比较国内大模型目前采用的总体技术方案 资深人工智能大咖带你深度解析LLaMA架构,深入理解LLaMA框架与Transformers框架的区别,LLaMA推理过程以及内部函数定义,最后大咖带你比较国内大模型目前采用的总体技术方案
- Vanilla MoE(Mixture of Experts)Vanilla MoE(Mixture of Experts) Export Network是一个典型的集成学习模型,它利用多个“专家”(即子模型或组件)来共同处理一个任务。每个专家都有其独特的优势,适用于不同的数据子集。而Gating Network的作用是根据输入样本的特征来动态地决定每个专家的输出权重,这样模型就根据输入的特... Vanilla MoE(Mixture of Experts)Vanilla MoE(Mixture of Experts) Export Network是一个典型的集成学习模型,它利用多个“专家”(即子模型或组件)来共同处理一个任务。每个专家都有其独特的优势,适用于不同的数据子集。而Gating Network的作用是根据输入样本的特征来动态地决定每个专家的输出权重,这样模型就根据输入的特...
- CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,它采用Transformer自回归架构,在超万亿高质量语料上进行预训练,拥有强大的基础能力。本文分别从模型结构、数据格式、微调及推理演示三个方面带大家全方位了解CPM-Bee大模型。 CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,它采用Transformer自回归架构,在超万亿高质量语料上进行预训练,拥有强大的基础能力。本文分别从模型结构、数据格式、微调及推理演示三个方面带大家全方位了解CPM-Bee大模型。
- 致敬卓然而立的你们,节日快乐! 致敬卓然而立的你们,节日快乐!
- 完整地介绍了MindStudio全流程开发工具链如何通过大模型迁移、精度调试、性能调优三大步骤,支持用户以低成本快速提升百亿千亿大模型训练性能,提高开发效率。 完整地介绍了MindStudio全流程开发工具链如何通过大模型迁移、精度调试、性能调优三大步骤,支持用户以低成本快速提升百亿千亿大模型训练性能,提高开发效率。
- 华为云CodeArts APIMock重磅发布三大特性;基于MindSpore的llama微调;一文详解GaussDB(DWS)临时表的本地临时表;一站式提供xml外部实体注入攻击的相关基础概念、原理分析、实战演练、安全编码防御以及自动化防御工具... 华为云CodeArts APIMock重磅发布三大特性;基于MindSpore的llama微调;一文详解GaussDB(DWS)临时表的本地临时表;一站式提供xml外部实体注入攻击的相关基础概念、原理分析、实战演练、安全编码防御以及自动化防御工具...
- 你知道最近火出圈的大模型吗?想知道它是怎样实现轻松上手、简单易用的吗?MindSpore自动并行带你几行代码玩转大模型! 你知道最近火出圈的大模型吗?想知道它是怎样实现轻松上手、简单易用的吗?MindSpore自动并行带你几行代码玩转大模型!
- 介绍MindSpore常用的分布式并行训练技术,以及如何将并行技术应用到大模型预训练中。 介绍MindSpore常用的分布式并行训练技术,以及如何将并行技术应用到大模型预训练中。
- 传统AI应用研发和部署通常将模型和‘支持工程(如解码、HTTP、预处理、后处理、运行环境)’分开研发,在部署时使用GPU部署PB或者TRT模型。这种场景下,尤其是对新应用,核心模型研发和支持工程研发会一样耗时。同时在未来的运维更迭中,算法性能和可靠性通常随开发人员水平变得参差不齐,影响上线效率。ModelBox+Mindspore可以有效解决上述痛点,帮助用户高效、高质量开发AI应用。 传统AI应用研发和部署通常将模型和‘支持工程(如解码、HTTP、预处理、后处理、运行环境)’分开研发,在部署时使用GPU部署PB或者TRT模型。这种场景下,尤其是对新应用,核心模型研发和支持工程研发会一样耗时。同时在未来的运维更迭中,算法性能和可靠性通常随开发人员水平变得参差不齐,影响上线效率。ModelBox+Mindspore可以有效解决上述痛点,帮助用户高效、高质量开发AI应用。
- 为大家介绍大模型低参微调套件:MindSpore PET;从事务模式和Lua脚本,为你讲透Redis事务;看OpenTiny如何帮助还在使用 JS 的朋友快速使用上 TS,享受TS带来的丝滑体验... 为大家介绍大模型低参微调套件:MindSpore PET;从事务模式和Lua脚本,为你讲透Redis事务;看OpenTiny如何帮助还在使用 JS 的朋友快速使用上 TS,享受TS带来的丝滑体验...
- 这篇文章主要目的是为了让大家能够清楚如何用MindSpore2.0来进行模型的迁移,因此更加注重整体的开发流程介绍,针对迁移中代码的编写不会详细讲解,但是会给出样例以及供查阅的文档链接。最终希望读者能够了解迁移模型需要做什么,每一步应该怎么做,做完了应该怎么验证。 这篇文章主要目的是为了让大家能够清楚如何用MindSpore2.0来进行模型的迁移,因此更加注重整体的开发流程介绍,针对迁移中代码的编写不会详细讲解,但是会给出样例以及供查阅的文档链接。最终希望读者能够了解迁移模型需要做什么,每一步应该怎么做,做完了应该怎么验证。
上滑加载中
推荐直播
-
如何快速入驻O3使能伙伴服务作业平台
2024/04/18 周四 16:00-16:40
红喜 O3伙伴服务工作台技术总架构师
本期邀请O3伙伴服务工作台技术总架构师,讲解O3伙伴服务工作台的设计理念,及演示工作台关键能力与价值点,带你2步快速入驻工作台。O3伙伴服务工作台,具备在线Online、开放Open、协同Orchestration的特征,作为伙伴服务的统一入口,支持伙伴以租户方式入驻,涵盖伙伴工程师、管理者等多角色,是一个以伙伴服务领域全旅程作业为中心,整合华为服务各专业领域能力,开放共享的一站式作业平台。
回顾中 -
通用人工智能(AGI)到来前夕如何实现企业降本增效和应用现代化
2024/04/19 周五 14:00-16:00
李京峰 T3出行VP/CTO
李京峰是T3出行CTO,本次他将分享通用人工智能(AGI)到来前夕,如何实现企业降本增效和应用现代化。
即将直播 -
产教融合专家大讲堂·第①期《高校人才培养创新模式经验分享》
2024/04/25 周四 16:00-18:00
于晓东 上海杉达学院信息科学与技术学院副院长;崔宝才 天津电子信息职业技术学院电子与通信技术系主任
本期直播将与您一起探讨高校人才培养创新模式经验。
去报名
热门标签