• [问题求助] MoE-LLM模型在自然语言处理任务中,如何选择合适的预训练模型作为基座进行微调?有没有一些预训练模型选择的实用技巧?
    MoE-LLM模型在自然语言处理任务中,如何选择合适的预训练模型作为基座进行微调?有没有一些预训练模型选择的实用技巧?
  • [问题求助] 如何结合MoE-LLM模型和其他深度学习模型进行联合建模?例如,与生成对抗网络(GAN)或变分自编码器(VAE)等模型进行结合。
    如何结合MoE-LLM模型和其他深度学习模型进行联合建模?例如,与生成对抗网络(GAN)或变分自编码器(VAE)等模型进行结合。
  • [问题求助] MoE在解决不平衡数据问题时,有没有一些有效的处理方法?比如过采样、欠采样或者其他的处理策略?有没有可用的过采样或欠采样技术?
    MoE在解决不平衡数据问题时,有没有一些有效的处理方法?比如过采样、欠采样或者其他的处理策略?有没有可用的过采样或欠采样技术?
  • [问题求助] 在使用MoE-LLM模型进行模型开发时,如何确定模型的架构和参数设置?有没有推荐的实践方法或经验准则?
    在使用MoE-LLM模型进行模型开发时,如何确定模型的架构和参数设置?有没有推荐的实践方法或经验准则?
  • [热门活动] 【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.47:看直播提问题赢华为云定制保温杯、华为云定制无线鼠标等好礼!
    中奖结果公示感谢各位小伙伴参与本次活动,本次活动获奖名单如下:请获奖的伙伴在11月6日之前点击此处填写收货地址,如逾期未填写视为弃奖。再次感谢各位小伙伴参与本次活动,欢迎关注华为云DTSE Tech Talk 技术直播更多活动~直播简介【直播主题】MoE-LLM:开启大模型终身学习的可能性【直播时间】2023年11月1日 16:30-18:00【直播专家】吕昱峰 华为昇思MindSpore DTSE技术布道师【直播简介】多专家系统(Mixture of Experts,MoE)是大模型时代提高模型参数量的重要技术手段,而随着大模型的不断演进发展,怎么样使大模型具备持续终身学习能力,通过持续的数据不断提升大模型也成为了重要问题。MoE技术和持续终身学习的碰撞,使大模型具备终身学习成为可能。本次直播讲系统讲解终身学习、MoE技术,并以Google的lifelong-MoE和华为Pangu-sigma模型为例,阐述LLM终身学习的可能性。直播链接:cid:link_1活动介绍【互动方式】直播前您可以在本帖留下您疑惑的问题,专家会在直播时为您解答。直播后您可以继续在本帖留言,与专家互动交流。我们会在全部活动结束后对参与互动的用户进行评选。【活动时间】即日起—2023年11月2日【奖励说明】评奖规则:活动1:直播期间在直播间提出与直播内容相关的问题,对专家评选为优质问题的开发者进行奖励。奖品:华为云定制保温杯活动2:在本帖提出与直播内容相关的问题,由专家在所有互动贴中选出最优问题贴的开发者进行奖励。奖品:华为云定制无线鼠标更多直播活动直播互动有礼:官网直播间发口令“华为云 DTSE”抽华为云定制飞盘、填写问卷抽华为云定制保温杯等好礼分享问卷有礼 :邀请5位朋友以上完成问卷即可获得华为云定制帆布袋。老观众专属福利:连续报名并观看DTT直播3期以上抽送华为云DTT定制T恤。【注意事项】1、所有参与活动的问题,如发现为复用他人内容或直播间中重复内容,则取消获奖资格。2、为保证您顺利领取活动奖品,请您在活动公示奖项后2个工作日内私信提前填写奖品收货信息,如您没有填写,视为自动放弃奖励。3、活动奖项公示时间截止2023年11月3日,如未反馈邮寄信息视为弃奖。本次活动奖品将于奖项公示后30个工作日内统一发出,请您耐心等待。4、活动期间同类子活动每个ID(同一姓名/电话/收货地址)只能获奖一次,若重复则中奖资格顺延至下一位合格开发者,仅一次顺延。5、如活动奖品出现没有库存的情况,华为云工作人员将会替换等价值的奖品,获奖者不同意此规则视为放弃奖品。6、其他事宜请参考【华为云社区常规活动规则】。
  • [技术干货] 使用bert(base)对比大语言模型(ChatGLM2-6B)做文本分类心得总结
    什么是bertBidirectional Encoder Representations from Transformers (BERT) 是一种基于变压器的机器学习技术,用于自然语言处理 (NLP) 预训练,由 Google 开发。 BERT 由 Jacob Devlin 和他的 Google 同事于 2018 年创建并发布。 2019 年,谷歌宣布已开始在其搜索引擎中使用 BERT,到 2020 年底,它几乎在所有英语查询中都使用了 BERT。 2020 年的一项文献调查得出结论,在一年多的时间里,BERT 已成为 NLP 实验中无处不在的基线,超过 150 篇研究出版物分析和改进了该模型。BERT 有两种模型:BERTBASE:12 个编码器和 12 个双向自注意头BERTLARGE:24 个编码器和 16 个双向自注意头。 两种模型都是根据从 BooksCorpus 中提取的 8 亿单词和英语维基百科中的 25 亿单词的未标记数据进行预训练的。bert与大模型(chatGPT)的区别Google 的 BERT(Bidirectional Encoder Representations from Transformers)和 ChatGPT(GPT-3.5)都是人工智能模型,但它们的应用场景和任务不同。BERT 是一种预训练语言模型,旨在为自然语言处理任务提供高质量的特征表示。它通过双向 Transformer 网络结构学习自然语言的上下文信息,从而在各种自然语言理解任务中表现出色,如文本分类、命名实体识别、情感分析等。BERT 模型的预训练数据来自于互联网上的大量文本语料库,例如维基百科和新闻文章等。而 ChatGPT 则是一种大型语言模型,旨在生成自然语言文本。它使用了单向的 Transformer 网络结构,并通过海量文本数据进行训练,从而学会生成人类类似的文本响应。ChatGPT 的应用场景主要是在线聊天机器人、自然语言生成、文本摘要等。虽然 BERT 和 ChatGPT 都是基于 Transformers 模型开发的,但它们的应用领域和任务不同,因此它们的结构和预训练数据也不同。在实际应用中,研究人员可以根据具体任务需求选择合适的模型进行微调和优化。bert与大模型(ChatGLM2-6B)在中文训练规模上的区别BERT 和 ChatGLM2-6B 都是基于 Transformers 模型的人工智能助手,但它们的训练规模和能力有所不同。以下是 BERT 和 ChatGLM2-6B 训练规模之间的对比:模型结构: BERT 是一种双向 Transformer 模型,采用双向编码器来学习文本数据中的上下文信息。它的预训练目标是最大化预测下一句的正确概率。BERT 模型有多种版本,如 BERT-base(1.1 亿参数)、BERT-large(3.4 亿参数)和 BERT-xl(11 亿参数)。 ChatGLM2-6B 是一种基于 BERT 模型的改进版,采用了单向 Transformer 网络结构。它的预训练目标是生成自然语言文本。ChatGLM2-6B 模型的版本为 ChatGLM2-6B,参数数量为 6 亿。训练数据: BERT 和 ChatGLM2-6B 的训练数据有所不同。BERT 的预训练数据主要包括了维基百科(英语版)和新闻文章等互联网文本资源。而 ChatGLM2-6B 的训练数据主要来源于清华大学 KEG 实验室和智谱 AI 公司提供的中文语料库,包括网页、书籍、新闻、论坛、问答对话等。训练规模: 从上述模型版本中,我们可以看出 ChatGLM2-6B 模型的训练规模大于 BERT 模型。ChatGLM2-6B 模型的参数数量为 6 亿,而 BERT-xl 只有 11 亿。这意味着 ChatGLM2-6B 模型在处理自然语言任务时具有更强的表达能力。性能和应用场景: ChatGLM2-6B 模型在保留了 BERT 模型优点的基础上,针对中文问答场景进行了优化。相较于 BERT 模型,ChatGLM2-6B 模型在中文问答任务上具有更好的性能。此外,ChatGLM2-6B 模型还可以应用于其他自然语言处理任务,如文本分类、命名实体识别等。bert(base)做文本分类为啥比大模型(ChatGLM2-6B)快很多先说结论:我们的项目是对用户分类其他的评价,做一个预分类,看看具体是反馈给哪个部门。经过大量测试,我们发现bert模型,无论是训练还是生成,所耗费的时间都比chatGLM2-6B快非常多原因分析:BERT 和 ChatGLM2-6B 都是基于 Transformers 模型的人工智能助手,但它们在训练和生成速度上的差异,可能源于以下几个方面:模型结构: BERT 是一种双向 Transformer 模型,采用双向编码器来学习文本数据中的上下文信息。它的预训练目标是最大化预测下一句的正确概率。BERT 模型有多种版本,如 BERT-base(1.1 亿参数)、BERT-large(3.4 亿参数)和 BERT-xl(11 亿参数)。 ChatGLM2-6B 是一种基于 BERT 模型的改进版,采用了单向 Transformer 网络结构。它的预训练目标是生成自然语言文本。ChatGLM2-6B 模型的版本为 ChatGLM2-6B,参数数量为 6 亿。训练数据和预处理: BERT 和 ChatGLM2-6B 的训练数据有所不同。BERT 的预训练数据主要包括了维基百科(英语版)和新闻文章等互联网文本资源。而 ChatGLM2-6B 的训练数据主要来源于清华大学 KEG 实验室和智谱 AI 公司提供的中文语料库,包括网页、书籍、新闻、论坛、问答对话等。 在预处理方面,BERT 模型采用了掩码语言模型(Masked Language Model,MLM)进行预训练,而 ChatGLM2-6B 采用了下一句预测任务(Next Sentence Prediction,NSP)。MLM 预训练目标使得模型在生成文本时更关注词汇的上下文信息,而 NSP 则相对关注整句话的语义关系。这使得 BERT 在中文分类任务上表现较好。生成速度: 在生成速度方面,BERT 和 ChatGLM2-6B 的差异主要体现在生成任务的复杂性。BERT 模型在生成文本时,采用了无监督的 MLM 预训练目标,使得模型能够在没有明确任务指导的情况下生成连贯、自然的文本。而 ChatGLM2-6B 模型在生成任务上采用了有监督的 NSP 任务,其生成速度相对较慢,因为模型需要在给定上下文中预测下一个句子。综上所述,BERT 在中文分类任务上相较于 ChatGLM2-6B 具有优势,主要得益于其双向 Transformer 结构、MLM 预训练目标以及模型规模。而在训练和生成速度方面,主要得益于其较小的模型规模、高效的优化算法和硬件设施,因此快很多如果想提示ChatGLM2-6B的速度,建议量化到Int4,同时减少训练的轮数(但是这会使得丢失率变大),需要权衡利弊
  • [技术干货] 华为云盘古大模型原理概述
    背景和趋势LLM推理趋势模型大、推理慢、成本高长序列多模态Cache, Embeddings,和向量数据库三种典型部署场景及解决方案低时延(用户给定一个prompt希望更快得到答复):更多机器,模型并行,batch size=1长序列(例如新闻摘要业务):全面推理计算瓶颈,增加推理内存瓶颈高吞吐:降低生成每个token的成本,提升batch size生成式模型的原理生成式模型的推理过程主要包含两部分:全量推理:这个过程中,用户给一个query,然后输出第一个token。增量推理:这个过程要反复执行多次,一般生成多少个token就要执行多少次减一。这两个过程所面临的难点是不一样的全量推理:计算密集(每次计算一个token;一个大的权重矩阵 * 一个小的输入向量)增量推理:访存密集(加载大的权重矩阵;加载大的kv cache和序列长度成正比)大模型的核心三要素模型表现强烈依赖于模型规模,弱依赖于架构模型表现随着计算量(Compute)、数据量(Dataset Size)、和参数量(Parameters)提升 模型表现随着训练数据量和参数量的提升是可以预测的训练超大规模模型三大挑战大模型训练难点训练资源需求大:假设一万参数训练至少需要静态内存+动态内存4万GB(1250卡)模型能力要求强:客户行业/任务分散,算力/人力成本高,模型必须具备三种能力服务成本高:万亿参数模型服务至少需要3000GB(95卡)盘古大模型面临的设计难点对于“训练资源需求大”要解决:如何在有限资源(如512卡D910)高效训练对于“模型能力要求强”要解决:如何提高算法精度、多任务学习、终生学习对于“服务成本要求高”要解决:如何在单Server内(8卡)提供有效服务盘古-Sigma架构诞生因此,盘古大模型在设计的时候,除了要考虑如何应对上述挑战,还要考虑如何设计才能让模型有更好的延展性,可以基于该模型底座持续的研发和迭代更新。针对上述问题与挑战,盘古大模型设计了Sigma体系,它采用了存算分离的稀疏架构,通过不断的代码优化,实现了最优算法效率和最优系统效率,一举解决了三大难题盘古-∑架构设计理念从稠密到稀疏的模块化扩展华为云最早设计的是盘古α这种稠密的架构。盘古∑架构是基于盘古α进行演进的一种更先进的架构。盘古∑模型首先继承了盘古α稠密模型的权重,同时高效扩展了模型的transformer层,将其中的部分用稀疏模型进行扩展。总所周知,神经网络中越高层级的学习到的是一些越具体的知识,越下层的学习的是一些越抽象的知识。而由于上层主要用来存储知识,这项改动能大大提升了模型知识存储的容量。而稀疏模型的推理成本仅仅相当于稠密的Num_Expert分之一,有绝对的优势模块化终生学习FFN2MOE:继承盘古alpha的知识,加速收敛两级分层随机专家路由:任务-专家细粒度控制;专家负载均衡;分组All-to-All通信节约专家编辑:支持任意新增、修改、删除专家;分组专家裁剪,单领域模型极致部署领域Embedding扩增技术:单语言到多语言扩增;单领域到多领域扩增高性能异构训练-最优系统效率传统训练仅采用GPU或CPU(GPU比CPU快很多,所以绝大部分训练都是采用GPU)而盘古Sigma模型采用CPU+GPU的方式进行训练,采用存算分离+稀疏模型的方式,每次技术的时候只将其中的一部分子图给抽象出来,然后前向后向的时候只计算某个网络中的一部分,并且只传输这一部分的梯度值,这样就可以大大提高了模型的算力和计算效率。这是1.085万亿参数盘古Sigma西安超算吞吐性能(Tokens/s)(使用了存算分离+稀疏模型后,吞吐量大概提升了6倍)以及1.085万亿参数盘古Sigma收敛曲线(持续稳定训练中)中文基础任务精度-最优算法效率下图是盘古Sigma与百度ERNIE3.0执行10个中文下游任务ZERO-SHOT测评的各项参数对比(可以看出盘古大模型中文子模型各项精度,都远超2600亿参数的百度ERNIE3.0)压缩加速技术针对上文提到的生成式模型推理的原理,盘古大模型采用了如下的加速方案模型大、推理慢主要是内存占用问题模型:例如175B这种千亿模型需要占用350GB内存kv cache:显存占用和序列长度成正比,175B模型4k长度占用576G解决方案模型压缩:4/8-bit权重量化算法QuantGPT。昇腾亲和量化算子使得模型内存降低2倍,推理加速20-30%kv cache压缩:kv cache 8-bit量化之后内存占用降低50%+长序列长context length全量推理的O(n^2)计算复杂度内存高效的Attention算子:单算子支持256k长度增量推理的O(n)内存复杂度kv cache多级多维度卸载Recomputation:kv部分缓存,部分计算长decode length对话历史cache:检索换计算拷贝机制和投机小模型:检索与计算融合高效部署CPU高效解码解码策略优化并行编码高效sortSampling算子softmax算子全量和增量分离部署全量推理 -> batch size=1 改进时延增量推理 -> 大 batch size 提升吞吐动态batch:解码完成的样本提前退出及时补进新的样本量化LLM模型(例如BERT/GPT2)最早是采用低比特、高精度的这种方式,但随着模型规模到达百亿、千亿,慢慢演变为了后量化这种技术生成式模型可以做很多种量化权重量化:量化完之后模型就小了,模型所占用的内存就小了,增量推理需要加载的权重也少了,这样做以后就有一个整体的降低内存和加速的效果权重量化 + 输入量化:这个技术在以前计算密集的,像BERT这种模型中用的最多的技术。但是在盘古模型上我们是不用的,因为增量推理主要是访存密集的,该方案在精度上会造成较大的损失权重量化 + kv cache量化:主要是因为kv cache如果在长序列模型大的情况下,可能会占用非常大的内存。如果和权重一起使用的话,可以把整个推理系统的内存占用降下来,而且可以把整体通信降下来,达到一个加速的效果权重量化: 8-bit量化模型权重内存占用降低一半,推理加速25%+Matrix-Vector单算子时延收益如下 伪量化算法(编辑距离)收益如下 时延收益如下 kv cache量化: 8-bit量化kv cache内存占用降低一半KV cache "per-channel" 量化 当前效果 搜索引擎内部逻辑LLM与搜索引擎的结合,作为搜索引擎的演进方向,可以较好地解决事实问题和时效性问题信息搜索:查询决策;查询语句生成;复杂查询语句分解;查询结果判别;查询结果摘要信息整合:多文档总结与归纳;思维链推理;回复生成信息校验:事实性校验;实时性校验;无害性校验使用工具在上下文学习能力较弱时:通过SFT实现外部工具调用在上下文学习能力较强,但思维链能力还较弱时:通过自定义插件(只需提供插件的描述,无需SFT)实现插件调用(Plugin-in形式)在思维链能力较强时:通过思维链进行任务分解,实现外部工具的规划、调用和搜索,以完成复杂任务(Agent形式,类AutoGPT形式)通过SFT实现外部工具调用例如:通过调用Python引擎完成常用数学计算和推理等日常任务简单数学表达式简单数学应用题复杂数学应用题(鸡兔同笼:调用Sympy库)表格处理(调用Pandas库)日历查询(调用日历API)单位换算解微积分题画函数曲线通过插件形式调用工具实现搜集很多插件,然后将每个插件写一个描述。盘古实现了一个类似搜索引擎的功能,根据用户描述然后去找一个插件,并调用该插件获取结果,最后整合并呈现出来Agent形式通过调用外部工具解决复杂问题通过类似思维链的技术,将任务进行分解,一步步的去求解,然后校验,全部解完后再将其进行整合盘古画画文生图模型发展历史从自回归模型(DALL-E),慢慢演进到 扩展模型 Diffusion Model(ADM、GLIDE、DALL-E 2、LDM)提升画质、艺术性、推理速度盘古画画模型2.0在1.0的基础上,根据画质、图文匹配、艺术性及推理速度上多个方面进行尝试和更新,其中包括:提升输出分辨率,支持原生768输出:512(v1)-> 768(v2)提供两个版本服务:标准版以及艺术增强版。标准版更倾向于还原文本表达,艺术增强版能得到更好的艺术效果基于A+M进行大规模多机多卡训练得到模型,全自研昇思平台和昇腾硬件910,训练相比N卡速度提升10%自研Multistep-SED采样加速,50步采样降到20-30步,加速30-50%采用自研RLAIF提升画质以及艺术性表达训练数据扩充为原来盘古中文图文对数据的2倍+,并增加多种艺术数据自研扩散模型的可控方差采样加速Multisetp-SEDDDIM一阶ODE求解器,最常用的采样方法,一般用迭代50步,使用新的采样技术Multistep-SDE,可以加速迭代至20-30步Multistep-SED:使用Stochastic Linear Multi-step Methods进行Reverse SDE进行采样引入随机性,提升生成图像的多样性,防止采样过程中陷入局部最优,提升采样质量理论与实证计算得到采样算法最优的noise schedule,减少超参设置效果:采样步数较多(~20步)的情况下,可以生成高质量的图片重点数据采集的采样性能上达到SoTA水平自研基于RLAIF的Prompt自动优化功能(提高艺术性)现有用户的实际输入往往是简短的,与盘古画画的训练输入(文本描述更全,且包含风格)不一致因此我们基于RLAIF方案引入LLM(语言大模型)来对齐用户的实际输入与画画的所需输入需要注意的是,prompt自动优化功能在端文本上效果会更加明显基于多reward函数与RLAIF的文生图模型优化提出两种新的文图模型细粒度语义奖励Caption/SAM RewardCaption Reward:实验BLIP2模型为图像生成相应的详细标题,然后通过测量生成的标题与给定提示之间的相似度来计算奖励分数SAM Reward:使用Grounded-SAM模型将生成的图像分割成局部部分,并通过测量每个类别出现在提示场景中的可能来评分这些部分。这个可能性是通过大型语言模型(Vicuna-7B)计算得到的提出联合多种奖励函数的组合排序优化策略来提升文图模型生成图片效果。下面是细粒度语义奖励及组合优化排序策略图例可视化及指标结果如下图在全新技术的加持下,画画2.0在10k的中文MSCOCO-CN数据集上的FID、IS、CLIP score 评测中达到了最先进的性能,详细数据如下表所示:基于扩散模型的文本-图像生成与对比学习模型DiffDis提出基于DIffusion(扩散模型)架构的图文判别模型统一多模态生成和判别预训练任务生成/判别单一模型生成和判别任务基于两套独立框架生成模型:扩散模型判别模型:多模态预训练对齐生成判别统一模型前向过程:类别文本/图像加噪->预测高斯噪声 逆向过程:基于文本条件的图像生成;基于图像条件的类别文本生成实验结果相对基准模型CLIP,DiffDis在12个数据集上的平均准确率提高了4.7%在COCO上,DiffDis在12T检索和T2I检索的R@1方面分别优于CLIP-ViT-L/14,提高了11.6%和8.2%DiffDis模型与StableDiffusion相比在FID上取得了1.0的提升下面是DiffDis与Stable Diffusion生成效果的对比图新/旧两版画画效果对比人像 传统任务 特定风格 总结本文首先介绍了LLM(大语言模型)诞生的背景及其趋势,然后进一步讲解了现在的大模型面临技术难点及挑战,最终引出华为盘古大模型。在介绍盘古大模型的设计原理的同时,一步步给读者揭露盘古大模型是怎样处理并解决这些难题的,同时深入的介绍了盘古模型用到的压缩加速技术、搜索引擎技术、以及盘古画画文生图模型。通读全文,详细你对当今的AI技术,一定会有一个更深入的了解,同时期待华为盘古大模型上线的实际运用!本文参与华为云社区【内容共创】活动第24期。 任务7:华为开发者大会2023(Cloud):盘古基础模型能力解密
  • [热门活动] 开放同飞 ,共赢行业AI新时代丨HCDG城市行深圳站—AI大模型技术研讨会圆满成功
    HCDG(Huawei Cloud Developer Group 华为云开发者社区组织),是基于城市圈和技术圈,由开发者核心组自发开展的开放、创新、多元的社区技术交流组织。致力于帮助开发者学习提升、互动交流、挖掘合作,推动技术应用与本地产业结合、数智化转型和开发者文化发展。2023年10月24日,华为云开发者联盟携手华为(龙岗)数字创意产业创新中心、深圳市大新极客协会及HCDG深圳核心组联合举办的“HCDG城市行深圳站—AI大模型技术研讨会”在龙岗区星河双子塔圆满完成。活动汇聚了数位华为云专家与二十多位企业及开发者代表,深入探讨AI大模型在千行百业的实践与应用,共同迎接人工智能化新时代的到来。­­王晨 盘古大模型解决方案总监盘古大模型解决方案总监王晨先生在活动开场围绕盘古大模型进行了精彩的议题分享,他表示, AI大模型现在仍处于初级发展阶段,但其广阔的应用场景以及强大的能力,市场必将推动其快速的发展,预计将在2-5年内实现规模化应用。盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行百业,成为各组织、企业、个人的专家助手。周力 华为云高级技术工程师华为云高级技术工程师周力先生进行了华为云沃土云创计划及华为云专家服务的宣讲,他介绍了华为云可以从线上培训、技术支持、部署代金券、华为技术认证支持等多方面赋能企业,激励在场企业开发者学习华为云,基于华为云构建其产品和服务。开发者技术服务专家(DTSE)通过专家作业平台提供全流程标准化支撑,为企业提供专家能力支持,与企业和开发者一起应对挑战,拥抱新机遇。 活动最后,华为云专家、HCDG核心组与现场开发者们围绕AI大模型的实践与应用展开了激烈的讨论。华为云专家针对企业及开发者提出的在各场景下对AI大模型应用的一些困惑,分别从技术层面,创新层面,商业化层面进行深入分析与解读。本次AI大模型技术研讨会是HCDG今年在深圳的第三场城市活动,HCDG深圳核心组将持续不断地举行技术圈层及专家交流活动,赋能更多的企业与开发者,共赢行业AI新时代。HCDG城市行活动接下来将在北京、佛山、成都、厦门、大连等开发者核心城市相继落地。华为云也将继续携手各城市HCDG核心组与广大企业及开发者,共建产业新生态,为企业及开发者提供“新技术、新体验、新机会”全方位支撑,欢迎加入HCDG(华为云开发者社区组织)。
  • 资讯|孟晚舟:支持大模型“百花齐放”,华为做好“百花园”的黑土地
    9月20日,华为全联接大会2023在上海正式揭开帷幕,大会以“加速行业智能化”为主题,邀请思想领袖、商业精英、技术专家、合作伙伴、开发者等业界代表,从商业、产业、生态等方面共同探讨如何加速行业智能化。20日上午,华为副董事长、轮值董事长、CFO孟晚舟在大会上发表了“打造中国坚实的算力底座,为世界构建第二选择”的主题演讲。她表示,“华为将持续打造坚实的算力底座,使能百模千态,赋能千行万业。”过去30多年,在信息化、数字化的浪潮中,华为在不确定中抓住主要趋势,基于客户需求和技术创新的驱动,构筑产品领先优势,助力产业升级。从2003年开始,CT和IT在网络基础设施技术中相遇,华为提出All IP战略,推动通信领域的各类技术制式和协议统一,促进了联接的无处不在。华为支持了全球170多个国家和地区的1500多张网络的稳定运行,联接了全球1/3以上的人口。华为承建的5G网络,体验持续领先。2013年,随着云计算技术的发展,华为提出All Cloud战略,加速数字化转型的升级。2017年,华为公司宣布,要打造世界的“五朵云之一”。如今,这得益于持续的研发投入和全球客户的信任,华为云已成为全球增速最快的主流云厂商之一,在全球部署了30个Region、84个可用区,聚合了全球4.2万家合作伙伴、500万名开发者,服务了全球300万家客户。“十年一个台阶,从All IP到All Cloud,华为从未停止努力”, 孟晚舟说,为了抓住AI这一历史性的战略机遇,华为提出All Intelligence战略,目标是加速千行万业的智能化转型。当前,AI技术与应用的创新不断加快,参数超过千亿甚至万亿的人工智能神经网络模型,正在加速进入千行万业,AI的发展也正在跨越拐点。从小模型时代到大模型时代,AI技术的实用性发生了质的飞跃。过去,不同的应用场景需要开发不同的模型。现在,大模型通过吸收海量知识,一个模型可以适配多种业务场景,大幅降低了AI开发与应用的门槛,缩短了技术到应用的周期,使AI从作坊式开发、场景化定制,走向工业化开发、场景化调优,依托大模型规模化解决行业问题成为可能。孟晚舟表示,“在此进程中,通过算力底座、AI平台、开发工具的开放,支持主流大模型在智能化时代的‘百花齐放’,华为努力做好‘百花园’的黑土地。”她进一步指出,华为将持续提升通用大模型的能力,做好工程化工具,让客户和伙伴可以更便捷、更高效地调用模型,“我们支持每个组织使用自己的数据训练出自己的大模型,让每个行业用自己的专业知识发展出自己的行业大模型。我们的客户和伙伴已经能够基于盘古大模型,打造出了自己的政务、金融、矿山、电力、铁路等行业大模型。”转自华为云公众号
  • 资讯|盘古大模型for医学,“良医小慧”让智慧诊疗触手可及
    随着科技的飞速发展,人工智能正在成为推动各个行业变革的重要力量。在医疗行业,大模型的应用正逐渐成为一种趋势,为患者提供更加精准、高效、便捷的医疗服务。2023年9月26日,由润达医疗和华为云共同主办的润达医疗大模型·良医小慧产品发布会于上海隆重举办。随着“良医小慧”产品的推广和应用,医疗行业将进入一个全新的时代,再度加速智慧医疗建设,助力医疗行业高质量发展。混沌初开医疗界首款AI垂直大模型“良医小慧”问世在医疗行业中,检验报告是医生诊断和治疗的重要依据之一。然而,对于患者来说,这些检验报告中的数字和指标往往难以理解,也容易让人感到困惑和不安。比如说,红细胞计数检验结果是4.44,血小板分布宽度是13.5,验尿酸碱度结果是5.5...这些数字代表着什么意思?对于普通人来说,可能并不容易理解。而对于医生来说,就算是三级医院里的优秀医生,也要经过长期、大量的训练,才能够看懂自己科室中的几十项指标。再加上每天动辄数十上百份检验报告,不仅增加了工作量,也影响了问诊的效率和准确性。就如润达医疗董事、副总经理胡震宁在华为全联接大会2023上所说:“医疗的过程主要分两步,首先是诊断,之后才是治疗。检验结果所提供的诊断结论在整个医疗过程中起到至关重要的作用。”那么,在AI、大模型等智能技术和应用惠及千行百业的今天,有没有一款产品,既能让医生用好检验减轻负担,又能让患者看懂检验减轻焦虑,更能让即使是县乡地区的医生也能像北上广医生一样会看病?答案是肯定的。本次发布会中,润达医疗CTO张楠表示,在华为云盘古大模型的加持下,润达医疗结合慧检的检验知识图谱和华为云的人工智能技术,研发出医疗大模型“良医小慧”,构建出了全球最大规模的医学检验知识图谱。经过高达10亿次的训练,良医小慧能解释超过4500个检验项目和2800种疾病,综合准确性达到87.74%,能够综合考虑患者的病史,病症和其他相关因素,为患者提供更全面、详尽的评估,从而给出更精确的诊断和治疗方案。技术扎根华为云盘古大模型for医学发挥极致效能大模型正在重塑千行百业,为各行业带来了前所未有的变革和机遇。会上,华为云EI服务产品部部长尤鹏表示,华为云正在充分发挥大模型领域的技术积累和工程能力优势,让AI重塑千行万业,成为每个企业实现战略转型和智能升级的核心动力。目前,华为云基于昇腾AI云服务算力底座,已原生孵化和适配业界主流大模型,为开发者提供了完善的工具和资源,来支持大模型高效地迁移、保障模型训练的澎湃算力供应和环境的稳定可靠。在医疗领域,尤鹏介绍到,针对药物研发周期长、人工实验成本高耗时长等问题,华为云研发出盘古药物分子大模型,并让大模型像人类一样学习分子化合物,充分了解分子结构,最终让成药预测准确性提高了20%。实践方面,基于盘古药物分子大模型,华为云联合西交大一附院共同研发出抗菌药,其中先导药研发周期从之前的一年缩短到了一个月,大幅提升了药物的研发效率。不止是药物分子大模型,华为云还在将盘古大模型能力外溢,渗透到更为深入的医疗行业应用当中。此次良医小慧的成型,正是润达医疗以华为云盘古大模型为基础,建立自身专业化数据,最终打造出属于自己的L1模型的应用典范。未来,随着华为云盘古大模型技术的更新升级,良医小慧中所包含的专病模型也将更为丰富,将从检验科走向更多医院的推广和应用。其强大的解读能力和准确性可协助医生更好地理解和分析检验结果,提供精准的诊断辅助,从而改善医疗决策的质量。路虽远,行则将至。润达医疗在医疗领域的创新探索,以及华为人工智能等先进数字技术的加持,都将推动良医小慧持续为用户提供高效、安全、可扩展的智慧医疗解决方案,提供便捷、准确的健康管理和医疗支持,加速医疗行业数字化转型,助力建设“健康中国”。转自华为云公众号
  • 浅谈AI大模型发展历程
    AI大模型是指具有巨大参数量的深度学习模型,通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力,从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。AI大模型的定义具体可以根据参数规模来分类。根据OpenAI的分类方法,可以将AI模型分为以下几类:小型模型: ≤ 1百万个参数中型模型:1百万 – 1亿个参数大型模型:1亿 – 10亿个参数极大型模型:≥ 10亿个参数AI“大模型”是基于具有超级大规模的、甚至可以称之为“超参数”的模型,需要大量的计算资源、更强的计算能力以及更优秀的算法优化方法进行训练和优化。2022年11月30日由总部位于旧金山的OpenAI推出ChatGPT3.5。2023年2月, Google推出类似于ChatGPT的对话人工智能服务Bard, 基于其开发的对话编程语言模型(LaMDA)。但有很多限制,文字处理仅支持美式英语。2023年3月,OpenAI发布多模态模型GPT-4,并计划推出图像输入功能。2023年2月, 百度也于确认类ChatGPT聊天机器人项目名字确定为"文心一言", 英文名ERNIE Bot。2023年2月, 复旦大学自然语言处理实验室邱锡鹏教授团队推出对话式大型语言模型MOSS。2023年3月,由清华技术成果转化的公司智谱AI基于GLM-130B千亿基座模型的ChatGLM开启邀请制内测,同时开源了中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。2023年4月,阿里云研发语言模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试,获得邀请码用户可通过官网参与体验2023年5月,科大讯飞发布认知大模型“星火”。科大讯飞董事长刘庆峰表示,当前讯飞星火认知大模型已经在文本生成、知识问答、数学能力三大能力上已超ChatGPT,10月底将整体赶超ChatGPT。2023年3月,由前OpenAI员工共同创立的初创公司Anthropic推出了大型语言模型Claude。它可以被指示执行一系列任务,包括搜索文档,总结,写作和编码,以及回答有关特定主题的问题。2023年3月, 华为宣布即将推出盘古大模型。
  • [其他] 浅谈盘古NLP大模型功能
    盘古NLP大模型:千亿参数的中文预训练大模型,利用大数据预训练、对多源丰富知识相结合,并通过持续学习吸收海量文本数据,不断提升模型的效果。实现行业知识检索回答、文案生成、阅读理解等基础功能的同时,具备代码生成、插件调用、模型调用等高阶特性,在智能客服、创意营销、会议助手、代码助手、企业信息搜索等多个典型场景,提供AI技术支撑。功能介绍智慧教育助手1.单轮问答:历史、地理、科学、技术、文化等通用常识问答2.多轮对话:根据用户提供的上下文信息进行逻辑推理和判断,自然流畅对话3.角色扮演:以职位、著名IP、客服等口吻回答用户问题4.数学能力:具备基础的运算能力行业内容生成1.文案生成:根据行业需求完成营销文案、公关稿件、公文、股评等创作型任务2.要点生成:根据行业属性自动搜索和分析相关内容,生成要点3.表格生成:根据行业需求将字段以图表的形式返回呈现行业知识理解1.开卷问答:针对标准发文内容进行阅读理解和问答2.文本摘要:针对快讯、财经新闻、会议内容等生成简明摘要3.信息抽取:针对时间、地点、人物等通用实体及工单要素等信息抽取功能优势海量数据集盘古NLP大模型通过对中文词汇、语法、语义等特征的深度分析,持续优化基础模型,打造业界最强中文理解/生成能力。推理能力优盘古NLP大模型采用文本+代码融合训练的方式,不仅需要从文本中提取信息,还需要理解代码的语义和逻辑及与文本之间的关系,提升思维链推理能力。多任务促进盘古NLP大模型不同任务间具备强大的迁移能力,它所掌握的知识和技能可以轻松地转移到其他相关任务中,帮助模型更快地学习新任务,循环促进优化。多模型调优支持在不同领域任务中分别使用小模型进行特定领域的训练和优化,提高模型的使用效率和准确性,优质完成多领域任务多插件补齐LLM成为连接应用生态的中枢,支持如知识图谱,搜索,符号引擎等,补足机制性缺陷,提高盘古NLP大模型整体性能全场景覆盖支持行业知识问答,文案创作等多项能力,覆盖政务、金融、电商、能源等领域,低使用门槛助力多场景AI应用落地
  • HCDG城市行南京站——AI+软件开发应用如何赋能千行百业圆桌
    HCDG的城市行活动就是针对每个城市的开发者的技术交流的圈子,希望能把最新的技术能力,最前沿的行业动态,最深入的生态交流,与开发者一起分享。7月华为HDC大会发布了盘古大模型,8月18日,由华为主办,江苏路特数字科技有限公司协办的HCDG城市行落地南京,本次活动发起人路特CTO戚俊,也是华为云HCDE的重要的专家之一。通过分享大模型的行业案例,与所有开发者能共同探讨交流目前最新、最前端技术能力。大模型重塑千行百业针对目前的大模型,本次特别邀请了华为云AI算法专家夏飞博士首先了分享《大模型重塑千行百业》,他深入介绍了当前盘古系列超大规模预训练模型,包括NLP大模型、CV大模型、多模态大模型、和科学计算大模型。夏飞介绍:“模型大意味着它吸收了海量数据知识,以盘古NLP大模型为例,它学习了40TB的中文文本数据;盘古CV大模型则包含了30亿+参数。这些数据提高了大模型的泛化能力,提升算法对新鲜样本的适应能力,从而学到隐含在数据背后的规律,减少对领域数据标注的依赖。”当大模型可以从小数据样本中学习更多,也能帮助我们打开走向通用AI的大门,它可以解决AI模型定制化和应用开发碎片化的难题。大模型for数字内容来自媒体服务资深产品经理陈鹏与到场企业交流了华为云MetaStudio数字内容生产线。“基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力。使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。”大模型for软件开发由华为云PaaS产品部卢步云带来的华为云自主研发的全场景低代码平台Astro,提供了零码、低码、高低码协同的云上开发模式。他重点分享了:“大屏应用Astro Canvas,通过数据可视技术为核心,以屏幕轻松编排,多屏适配可视为基础,帮助非专业开发者通过图形化界面轻松搭建专业水准的数据可视化大屏应用。”满足项目运营管理,业务监控,风险预警等多种业务场景下的一站式数据实时可视化大屏展示需求。大模型for数字转型由华为云HCDE专家,本次活动的协办方江苏路特数字科技有限公司CTO戚俊,分享的大模型加速企业数字化转型解决方案,他为到场开发者介绍了AI为企业数字化工作提质增效,把企业的财务管理、行政管理、生产管理,通过AI解决数字化转型的痛点,并且指出“它不是帮你干活,而是让你更高效的实现目标。”这个理念。面对面交流大模型活动的最后,来自华为云的专家与HCDE专家与现场各位到场的开发者面对面的交流。针对目前大模型对于企业实际应用过程中的一些困惑,从实际的技术层面,创新层面,商业化层面深入交流。并且现场建立了南京当地的开发者技术生态圈,期待更多HCDG开发者的活动落地南京,落地江苏。HCDG(Huawei Cloud Developer Group 华为云开发者社区组织),是基于城市圈和技术圈,由开发者核心组自发开展的开放、创新、多元的社区技术交流组织。致力于帮助开发者学习提升、互动交流、挖掘合作,推动技术应用与本地产业结合、数智化转型和开发者文化发展。未来我们有更多的交流活动可以在以城市为单位的开发这种落地生根,我们华为云针对核心组成员申请的HCDG活动会提供相应的专家和费用的支持,期待与您见面。
总条数:60 到第
上滑加载中