- 网上有许多DeepSeek训练技术的相关文章,但大部分都涉及到大量技术术语,非专业人士不容易理解。为了让大家能够快速理解DeepSeek,笔者把网络知识结合自己的思考,用一种通俗的方式来给大家讲解DeepSeek的训练技术。 DeepSeek-R1中提到的模型训练流程如下: 看不懂?没关系,接下来我们用通俗的例子来讲明白里面原理。 01 R1-Zero (R1模型的前世)DeepSeek团队... 网上有许多DeepSeek训练技术的相关文章,但大部分都涉及到大量技术术语,非专业人士不容易理解。为了让大家能够快速理解DeepSeek,笔者把网络知识结合自己的思考,用一种通俗的方式来给大家讲解DeepSeek的训练技术。 DeepSeek-R1中提到的模型训练流程如下: 看不懂?没关系,接下来我们用通俗的例子来讲明白里面原理。 01 R1-Zero (R1模型的前世)DeepSeek团队...
- msModelSlim支持多种模型压缩算法(包括量化压缩、稀疏压缩等),为开发者提供更加灵活、高效的模型压缩量化方案。 msModelSlim支持多种模型压缩算法(包括量化压缩、稀疏压缩等),为开发者提供更加灵活、高效的模型压缩量化方案。
- 本文将会介绍一些更高阶的并行方式,如序列并行(SP),上下文并行(CP),混合序列并行Ulysess,ZeRO系列并行优化策略,完全分片数据并行(FSDP)。并且,在文章最后将汇总所有介绍过的并行方案与它们的通信模式,帮助读者初步建立起分布式训练与集合通信的知识结构体系。 本文将会介绍一些更高阶的并行方式,如序列并行(SP),上下文并行(CP),混合序列并行Ulysess,ZeRO系列并行优化策略,完全分片数据并行(FSDP)。并且,在文章最后将汇总所有介绍过的并行方案与它们的通信模式,帮助读者初步建立起分布式训练与集合通信的知识结构体系。
- 感受深度思考的震撼,通俗易懂地带你了解为什么DeepSeek会如此之火? 感受深度思考的震撼,通俗易懂地带你了解为什么DeepSeek会如此之火?
- 本案例主要内容是基于云主机使用Spotlight实现电商平台推荐系统,Spotlight是一个面向推荐系统的Python库,它利用PyTorch的强大计算能力,构建了一系列深浅不一的推荐模型。 本案例主要内容是基于云主机使用Spotlight实现电商平台推荐系统,Spotlight是一个面向推荐系统的Python库,它利用PyTorch的强大计算能力,构建了一系列深浅不一的推荐模型。
- 文章来源于时习知公众号全文约2029字,阅读约需7分钟。随着人工智能技术的快速发展,AI Agent成为大模型研究的热点。AI Agent是一种具备主动思考和行动能力的智能体,能够自主感知环境、形成记忆、规划和执行任务,并能与其他Agent协作。但是AI Agent的发展也面临较多的挑战,下面我们就来深入探讨一下。 01 AI Agent发展现状 AI Agent是指通过训练大规模的神经网... 文章来源于时习知公众号全文约2029字,阅读约需7分钟。随着人工智能技术的快速发展,AI Agent成为大模型研究的热点。AI Agent是一种具备主动思考和行动能力的智能体,能够自主感知环境、形成记忆、规划和执行任务,并能与其他Agent协作。但是AI Agent的发展也面临较多的挑战,下面我们就来深入探讨一下。 01 AI Agent发展现状 AI Agent是指通过训练大规模的神经网...
- 华为云Stack构建ModelArts数据工程套件,为大模型高效率高质量供数 华为云Stack构建ModelArts数据工程套件,为大模型高效率高质量供数
- 致力于借助先进科技技术,赋能数字农业技术装备提升改造的杭州盈禾嘉田科技有限公司,运用AI+大数据技术为农民提供便捷高效的农业科技服务,通过整合和连接产业链中的技术专家、农资服务商和农产品销售渠道资源,构建标准化种植追溯体系与大数据分析能力,为政府及行业用户提供专业解决方案,服务于农作物种植管理工作,在作物长势分析、病虫害调查、农事操作记录、采收期果实管理等田间种植各环节工作中实现自动识别、自动计数 致力于借助先进科技技术,赋能数字农业技术装备提升改造的杭州盈禾嘉田科技有限公司,运用AI+大数据技术为农民提供便捷高效的农业科技服务,通过整合和连接产业链中的技术专家、农资服务商和农产品销售渠道资源,构建标准化种植追溯体系与大数据分析能力,为政府及行业用户提供专业解决方案,服务于农作物种植管理工作,在作物长势分析、病虫害调查、农事操作记录、采收期果实管理等田间种植各环节工作中实现自动识别、自动计数
- 为抓住AI大模型技术变革的机遇,通过AI辅助内部业务,提升华为内部各业务领域的作业效率和质量,项目组组织训战让各业务领域懂AI用AI。我参加了上周(6月20日至22日)的第六期训战(for HR领域),收获非常大,必须分享给大家。 为抓住AI大模型技术变革的机遇,通过AI辅助内部业务,提升华为内部各业务领域的作业效率和质量,项目组组织训战让各业务领域懂AI用AI。我参加了上周(6月20日至22日)的第六期训战(for HR领域),收获非常大,必须分享给大家。
- 解难题做难事,重塑干行万业 解难题做难事,重塑干行万业
- 推进代码大模型的发展,共创产业价值 推进代码大模型的发展,共创产业价值
- 扫码报名CANN训练营24年第一季,限时领取免费学习资源,完成认证考核赢华为手机、开发板等重磅大奖! 扫码报名CANN训练营24年第一季,限时领取免费学习资源,完成认证考核赢华为手机、开发板等重磅大奖!
- 随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练(Distributed Training)系统来解决海量的计算和内存资源要求问题。在分布式训练系统环境下需要将一个模型训练任务拆分成多个子任务,并将子任务分发给多个计算设备,从而解决资源瓶颈。但是如何才能利用包括数万计算加速芯片的集群,训练模型参数量千亿甚至是万亿的大... 随着语言模型参数量和所需训练数据量的急速增长,单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练(Distributed Training)系统来解决海量的计算和内存资源要求问题。在分布式训练系统环境下需要将一个模型训练任务拆分成多个子任务,并将子任务分发给多个计算设备,从而解决资源瓶颈。但是如何才能利用包括数万计算加速芯片的集群,训练模型参数量千亿甚至是万亿的大...
- 在技术革新的浪潮中,「开源」正成为一股不可小觑的力量!Meta,作为开源领域的佼佼者,其最新推出的Llama 3模型无疑再次证明了其在这一领域的领导地位。近日,Meta(原 Facebook)开源了他们公司的新一代大模型 Llama 3,虽然目前只放出了 8B 和 70B 两个版本,但是在评估结果上已经优于 Claude 3 Sonnet、Mistral Medium 和 GPT-3.5 等... 在技术革新的浪潮中,「开源」正成为一股不可小觑的力量!Meta,作为开源领域的佼佼者,其最新推出的Llama 3模型无疑再次证明了其在这一领域的领导地位。近日,Meta(原 Facebook)开源了他们公司的新一代大模型 Llama 3,虽然目前只放出了 8B 和 70B 两个版本,但是在评估结果上已经优于 Claude 3 Sonnet、Mistral Medium 和 GPT-3.5 等...
- 3月21日,在巴黎举办的云原生顶级峰会KubeCon EU 2024上 ,华为云首席架构师顾炯炯在“Cloud Native x AI:以持续开源创新开启智能时代”的主题演讲中指出,云原生和AI技术的融合,是推动产业深刻变革的关键所在。华为云将持续进行开源创新,与开发者共启智能时代。▲华为云首席架构师顾炯炯发表演讲▶AI对于云原生范式提出关键挑战在过去的几年里,云原生彻底改变了传统的IT系统... 3月21日,在巴黎举办的云原生顶级峰会KubeCon EU 2024上 ,华为云首席架构师顾炯炯在“Cloud Native x AI:以持续开源创新开启智能时代”的主题演讲中指出,云原生和AI技术的融合,是推动产业深刻变革的关键所在。华为云将持续进行开源创新,与开发者共启智能时代。▲华为云首席架构师顾炯炯发表演讲▶AI对于云原生范式提出关键挑战在过去的几年里,云原生彻底改变了传统的IT系统...
上滑加载中
推荐直播
-
华为开发者空间玩转DeepSeek
2025/03/13 周四 19:00-20:30
马欣 山东商业职业技术学院云计算专业讲师,山东大学、山东建筑大学等多所本科学校学生校外指导老师
同学们,想知道如何利用华为开发者空间部署自己的DeepSeek模型吗?想了解如何用DeepSeek在云主机上探索好玩的应用吗?想探讨如何利用DeepSeek在自己的专有云主机上辅助编程吗?让我们来一场云和AI的盛宴。
即将直播 -
华为云Metastudio×DeepSeek与RAG检索优化分享
2025/03/14 周五 16:00-17:30
大海 华为云学堂技术讲师 Cocl 华为云学堂技术讲师
本次直播将带来DeepSeek数字人解决方案,以及如何使用Embedding与Rerank实现检索优化实践,为开发者与企业提供参考,助力场景落地。
去报名
热门标签