- 除夕是中国人一年中最热闹喜庆的节日可有些人却被困在寂静里根据第二次全国残疾人抽样调查结果,我国现有2780万听障人士。因为听觉的缺失,他们日常生活面临许多问题,更难以在像今天这样重要的日子里,亲口说出新春的祝愿。我们可以做些什么帮助他们打破跟世界对话的屏障呢?历时数月,华为云的工程师们升级了盘古数字人大模型,只为帮助一个女孩在这个除夕,对世界说一句,“愿你在新的一年里,万事顺遂,身体健康”。... 除夕是中国人一年中最热闹喜庆的节日可有些人却被困在寂静里根据第二次全国残疾人抽样调查结果,我国现有2780万听障人士。因为听觉的缺失,他们日常生活面临许多问题,更难以在像今天这样重要的日子里,亲口说出新春的祝愿。我们可以做些什么帮助他们打破跟世界对话的屏障呢?历时数月,华为云的工程师们升级了盘古数字人大模型,只为帮助一个女孩在这个除夕,对世界说一句,“愿你在新的一年里,万事顺遂,身体健康”。...
- 随着最近这些年来基于统计机器学习的自然语言处理的算法的发展,以及信息检索研究的需求,特别是近年来深度学习和预训练语言模型的研究以及国内国外许多大模型的开源,研究人员们构建了多种大规模开源数据集,涵盖了网页、图片、论文、百科等多个领域。在构建大语言模型时,数据的质量和多样性对于提高模型的性能至关重要‘同时,为了推动大模型的语言的研究和应用,学术界和工业界也开放了多个针对大语言模型的开源... 随着最近这些年来基于统计机器学习的自然语言处理的算法的发展,以及信息检索研究的需求,特别是近年来深度学习和预训练语言模型的研究以及国内国外许多大模型的开源,研究人员们构建了多种大规模开源数据集,涵盖了网页、图片、论文、百科等多个领域。在构建大语言模型时,数据的质量和多样性对于提高模型的性能至关重要‘同时,为了推动大模型的语言的研究和应用,学术界和工业界也开放了多个针对大语言模型的开源...
- 华为云数据库创新Lab在论文《Efficient Cardinality and Cost Estimation with Bidirectional Compressor-based Ensemble Learning》中提出了基于集成学习的基数和代价估计模型。本文发表在ICDM'23上, ICDM会议是由电气与电子工程师协会组织的、数据挖掘领域的顶级国际学术会议。 华为云数据库创新Lab在论文《Efficient Cardinality and Cost Estimation with Bidirectional Compressor-based Ensemble Learning》中提出了基于集成学习的基数和代价估计模型。本文发表在ICDM'23上, ICDM会议是由电气与电子工程师协会组织的、数据挖掘领域的顶级国际学术会议。
- 大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。虽然,截止到2023 年9 月为止,还没有非常好的大模型的理论分析和解释,也缺乏对语言模型训练数据的严格说明和定义。但是,大多数研究人员都普遍认为训练数据是影响大语言模型效果以及样本泛化能力的关键因素之一。从此前的研究来看,预训练数据需要涵盖各种类型,包括网络数据、图书、论文、百科和社... 大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。虽然,截止到2023 年9 月为止,还没有非常好的大模型的理论分析和解释,也缺乏对语言模型训练数据的严格说明和定义。但是,大多数研究人员都普遍认为训练数据是影响大语言模型效果以及样本泛化能力的关键因素之一。从此前的研究来看,预训练数据需要涵盖各种类型,包括网络数据、图书、论文、百科和社...
- 近日,开发者群体正热议一款基于开源模型更换张量(Tensor)名字的话题。研究者认为零一万物近期发布的Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。LlaMA(羊驼)这个大模型再次冲上热搜!LLaMA(Large Language Model Meta AI),由 Meta AI 发布的一个开放且高效的大型基础语言模型,共有 7B、13B、33B、65B(650 ... 近日,开发者群体正热议一款基于开源模型更换张量(Tensor)名字的话题。研究者认为零一万物近期发布的Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。LlaMA(羊驼)这个大模型再次冲上热搜!LLaMA(Large Language Model Meta AI),由 Meta AI 发布的一个开放且高效的大型基础语言模型,共有 7B、13B、33B、65B(650 ...
- 语言模型目标是建模自然语言的概率分布,在自然语言处理研究中具有重要的作用,是自然语言处理基础任务之一。大量的研究从n 元语言模型(n-gram Language Models)、神经语言模型(Neural Language Models,NLM)以及预训练语言模型(Pre-trained Language Models,PLM)等不同角度开展了系列工作。这些研究在不同阶段都对自然语... 语言模型目标是建模自然语言的概率分布,在自然语言处理研究中具有重要的作用,是自然语言处理基础任务之一。大量的研究从n 元语言模型(n-gram Language Models)、神经语言模型(Neural Language Models,NLM)以及预训练语言模型(Pre-trained Language Models,PLM)等不同角度开展了系列工作。这些研究在不同阶段都对自然语...
- 深度学习(DL)虽然在日志异常检测中得到了不少应用,但在实际轻量级运维模型选择中,必须仔细考虑异常检测方法与计算成本的关系。具体来说,尽管深度学习方法在日志异常检测方面取得了出色的性能,但它们通常需要更长的时间来进行日志预处理、模型训练和模型推断,从而阻碍了它们在需要快速部署日志异常检测服务的在线分布式云系统中的采用。本文对现有的基于经典机器学习和深度学习方法的日志异常检测方法进行了实证研究... 深度学习(DL)虽然在日志异常检测中得到了不少应用,但在实际轻量级运维模型选择中,必须仔细考虑异常检测方法与计算成本的关系。具体来说,尽管深度学习方法在日志异常检测方面取得了出色的性能,但它们通常需要更长的时间来进行日志预处理、模型训练和模型推断,从而阻碍了它们在需要快速部署日志异常检测服务的在线分布式云系统中的采用。本文对现有的基于经典机器学习和深度学习方法的日志异常检测方法进行了实证研究...
- 本文主要介绍了一个名为CoderEval的代码生成大模型评估基准,并对三个代码生成模型(CodeGen、PanGu-Coder和ChatGPT)在该基准上的表现进行了评估和比较。研究人员从真实的开源项目中的选取了代码生成任务来构建CoderEval,并根据对外部依赖的程度为标准将这些任务分为6个等级、根据生成的目标分为3类生成任务,以更多维地评估不同大模型在不同上下文场景中的生成效果。实验结... 本文主要介绍了一个名为CoderEval的代码生成大模型评估基准,并对三个代码生成模型(CodeGen、PanGu-Coder和ChatGPT)在该基准上的表现进行了评估和比较。研究人员从真实的开源项目中的选取了代码生成任务来构建CoderEval,并根据对外部依赖的程度为标准将这些任务分为6个等级、根据生成的目标分为3类生成任务,以更多维地评估不同大模型在不同上下文场景中的生成效果。实验结...
- 随着人工智能的快速发展,越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成两个关键部分,一个是训练数据预处理,一个是模型训练,如何提升两者的处理性能成为提升模型训练性能的关键。一般情况下,数据加载预处理由host CPU处理,而模型训练计算是在NPU或GPU上处理的,两者一般并行执行,因此训练一次迭代的时间通常是两个处理时间的最大值。 随着人工智能的快速发展,越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成两个关键部分,一个是训练数据预处理,一个是模型训练,如何提升两者的处理性能成为提升模型训练性能的关键。一般情况下,数据加载预处理由host CPU处理,而模型训练计算是在NPU或GPU上处理的,两者一般并行执行,因此训练一次迭代的时间通常是两个处理时间的最大值。
- 华为技术专家分享有关于LLM lifelong learning的概念,帮助大家了解持续学习的特性与理论知识,同时也详细介绍了MoE的发展史。 华为技术专家分享有关于LLM lifelong learning的概念,帮助大家了解持续学习的特性与理论知识,同时也详细介绍了MoE的发展史。
- 目前,大模型凭借超强的学习能力,已经在搜索、推荐、智能交互、AIGC、生产流程变革、产业提效等场景表现出巨大的潜力。大模型经过海量数据的预训练,通常具有良好的通用性和泛化性。用户基于“大模型预训练+微调”开发范式即可在实际业务场景取得理想的效果。从经济成本和时间成本来看,预训练是构筑各种行业模型的主要部分,优化大模型预训练具有非常重要的意义。Open AI研究表明:大模型表现好坏强烈依赖于... 目前,大模型凭借超强的学习能力,已经在搜索、推荐、智能交互、AIGC、生产流程变革、产业提效等场景表现出巨大的潜力。大模型经过海量数据的预训练,通常具有良好的通用性和泛化性。用户基于“大模型预训练+微调”开发范式即可在实际业务场景取得理想的效果。从经济成本和时间成本来看,预训练是构筑各种行业模型的主要部分,优化大模型预训练具有非常重要的意义。Open AI研究表明:大模型表现好坏强烈依赖于...
- 在昇腾AI处理器上训练PyTorch框架模型时,可能由于算子在CPU上的下发速度、动态shape等问题,导致性能降低,那么本期就分享几个关于PyTorch模型调优的典型案例,给出调优思路及具体的调优方法。 在昇腾AI处理器上训练PyTorch框架模型时,可能由于算子在CPU上的下发速度、动态shape等问题,导致性能降低,那么本期就分享几个关于PyTorch模型调优的典型案例,给出调优思路及具体的调优方法。
- 华为云发布盘古大模型在矿山、政务、汽车、气象、医学、数字人、研发等领域的创新服务,并宣布华为云昇腾AI云服务正式上线,加快让千行万业实现大模型普惠,构建AI时代最佳云底座。 华为云发布盘古大模型在矿山、政务、汽车、气象、医学、数字人、研发等领域的创新服务,并宣布华为云昇腾AI云服务正式上线,加快让千行万业实现大模型普惠,构建AI时代最佳云底座。
- 介绍MindSpore常用的分布式并行训练技术,以及如何将并行技术应用到大模型预训练中。 介绍MindSpore常用的分布式并行训练技术,以及如何将并行技术应用到大模型预训练中。
- Ascend C提供孪生调试方法,即在cpu侧创建一个npu的模型并模拟它的计算行为,用来进行业务功能调试。相同的算子代码可以在cpu域调试精度,npu域调试性能。 Ascend C提供孪生调试方法,即在cpu侧创建一个npu的模型并模拟它的计算行为,用来进行业务功能调试。相同的算子代码可以在cpu域调试精度,npu域调试性能。
上滑加载中
推荐直播
-
昇腾云服务ModelArts深度解析:理论基础与实践应用指南
2024/12/03 周二 14:30-16:30
Alex 华为云学堂技术讲师
如何快速创建和部署模型,管理全周期AI工作流呢?本期直播聚焦华为昇腾云服务ModelArts一站式AI开发平台功能介绍,同时结合基于ModelArts 的实践性实验,帮助开发者从理论到实验更好地理解和使用ModelArts。
回顾中 -
深度解析鸿蒙应用入门级开发者认证
2024/12/04 周三 16:00-18:00
Edi 华为云学堂技术讲师
本期直播将为开发者带来HCCDA-HarmonyOS&Cloud Apps认证课程系统介绍、详细阐述HarmonyOS 技术架构、理解HarmonyOS 技术理念,通过实例带领开发者应用快速上手。
去报名 -
鸿蒙应用入门:轻松掌握ArkTS开发语言
2024/12/05 周四 16:00-18:00
Edi 华为云学堂技术讲师
本期直播课旨在让开发者了解ArkTS语法、轻松掌握ArkUI组件开发,带你零门槛入门鸿蒙开发,掌握状态管理实验和渲染控制实验。
即将直播
热门标签