• [问题求助] 盘古大模型应该如何集成到应用中?
    盘古大模型应该如何集成到应用中?
  • [技术干货] 2024年1月人工智能问题总结合集
    一月问题总结如下:【1】用华为atlas300-3010 用于训练失败cid:link_3【2】如何展示这些图片呢cid:link_4【3】云平台第一次用,求助怎么导入transformers库啊?cid:link_0【4】 atlas 200 DK 制卡完成后启动不了cid:link_1【5】请问下,新人申请预测大模型一般几天可以通过申请。cid:link_2
  • [问题求助] 华为云盘古大模型的文生图功能是只能生成卡通的,还是能生成逼真的真人画面?
    华为云盘古大模型的文生图功能是只能生成卡通的,还是能生成逼真的真人画面?
  • [问题求助] 华为云的盘古大模型 NL2SQL的能力如何?是否支持多表连接 和 窗口函数这种复杂的操作?
    华为云的盘古大模型 NL2SQL的能力如何?是否支持多表连接 和 窗口函数这种复杂的操作
  • [问题求助] 华为云的盘古大模型,你们申请通过了吗?对话效果和ChatGPT3.5相比怎么样
    华为云的盘古大模型,你们申请通过了吗?对话效果和ChatGPT3.5相比怎么样
  • [分享交流] 【分享交流】大家在做《百模千态》项目的时候,有什么意见和建议,或者问题,欢迎在这里进行讨论
    大家在做《百模千态》项目的时候,有什么意见和建议,或者问题,欢迎在这里进行讨论
  • [行业动态] 共筑城市智能体 深耕城市数智化——全国首个城市智能体@大模型福田创新成果正式发布
    [中国,深圳,2023年11月16日] 共筑城市智能体,深耕城市数智化——由深圳市政务服务数据管理局指导,福田区人民政府和华为技术有限公司共同主办的“城市智能体@大模型创新峰会”在深圳市福田区星河丽思卡尔顿酒店举办。大会以“福田‘四智’实践,率先构筑城市自进化智能体”为主题,邀请全国各省城市主官、行业专家及相关领域合作伙伴齐聚深圳,共话城市大模型创新应用,探究城市智理新模式,践行高质量发展之路。峰会期间,在国家信息中心副主任周昌恩、深圳市政府副秘书长黄强、深圳市政务服务数据管理局局长刘佳晨、深圳市福田区委书记黄伟等各省城市主官、行业专家及相关领域合作伙的见证下进行了两场发布活动:发布活动一:“四智”融合,全国首个城市智能体@大模型创新成果在福田正式发布福田作为全国首个落地城市大模型的城区,在国家信息中心副主任周昌恩,深圳市政府副秘书长黄强,深圳市福田区委书记黄伟,华为常务董事、华为云CEO张平安,华为公司高级副总裁、政务一网通军团CEO杨瑞凯,华为云人工智能与大数据领域总裁尤鹏的共同见证下, “城市智能体@大模型福田创新成果”正式上线亮相。伴随发布的还有五大场景:● 城市智能推介:政务数字人福田推介及智能问答,智能对话交互,向企业/市民介绍福田概况、政策,以及快速了解政务办事等。● 经济智能问数:经济形势分析,依托大模型,支持数字人输入问答交互,宏观经济、产业、企业智能分析,支撑经济形势分析会召开● 智慧公文:智能公文生成,根据主题词,生成参考题纲,根据选定的题纲,一键插入空白公文,并生成参考的公文底稿。● 市政智能巡查:市政巡查,智慧治理,AI智能识别+无人机,实现占道施工、道路拥堵、人群聚集等场景的视频智能分析。● AR巡查:以核代采,依托城市孪生数字底座,巡查城市部件、企业等信息,以核代采,大幅提升巡查效率。助力深圳市福田区实现惠民便企、增效减负目标,开启共筑城市智能体,深耕城市数智化。城市智能体@大模型福田创新成果正式上线发布活动二:“数智”升级,城市大模型联合解决方案正式发布城市的数智化建设需要众多伙伴的共同携手。华为政务一网通军团研发总裁陈金助联合大模型生态伙伴正式发布了“城市大模型联合解决方案”,点燃城市“智”理新未来,并欢迎更多的伙伴参与到构建城市大模型联合解决方案中来,基于AI助力政务便捷服务、政府高效办公、城市精准治理与安全感知,让城市更温暖、更安全、更智能。华为联合大模型生态伙伴发布“城市大模型联合解决方案”整场峰会精彩纷呈,看点众多。华为常务董事、华为云CEO张平安致辞表示,在智能时代,AI将重塑千行万业,每座城市的数字底座、数据治理体系都将由AI大模型驱动创新。福田区正加快探索落地“城市智能体”等前沿理念和开放架构,构筑全栈创新的城市数字底座,并基于自然语言、计算机视觉大模型的多模态融合,让城市能感知、会思考、可进化、有温度,为智慧城市的创新实践提供了宝贵经验。华为常务董事、华为云CEO张平安城市是生命体,自我进化,生生不息城市是永恒的,城市发展中面临的矛盾与挑战却在不断变化,回顾人类发展史,通用生产力技术的出现总能促进社会跨越式进步;城市是生命体,有机体,自我进化,生生不息,在新理念、新架构下,城市发展已从局部强化的城市大脑向全面发展的“城市智能体”进化。深圳市政务服务数据管理局副局长胡锴在主题演讲中指出,民生诉求综合服务改革,表面上看是技术的创新,本质上是政府职能的变革和治理方式的转型。深圳市以党建引领,推进“主推一个渠道、共建一套清单、建设一个平台、形成一套机制‘四个一改革’,为市民高效办好一件事、主动办好一类事”。同时通过民生诉求价值流分析及流程优化、大模型赋能民生诉求场景创新,持续深化和优化民生诉求改革。深圳市福田区政务服务数据管理局局长罗耿彪,在演讲中介绍了福田区持续推动城区治理手段、治理模式、治理理念创新,以数字化赋能城区治理,基于城市智能体整体架构,制定数字化转型整体规划,打造“四横三纵”技术架构体系,创新“四智融合助力全域治理”理念,深化“三个一网”建设,着力解决各类城区治理问题,系统提升城市治理网格化、标准化、智能化水平,让城市运转更聪明、更智慧,让人民群众有更多的获得感、幸福感、安全感,为高质量推进广东省“百县千镇万村高质量发展工程”注入强劲动能。华为政务一网通军团研发总裁陈金助,在《共筑城市智能体 深耕城市数智化》演讲中表示,在开放融合的城市智能体架构中,华为在智能感知、智能联接、智能底座、智能平台(CDOS:城市数字操作系统)等方面持续演进升级,努力让城市能感知、会思考、有温度、可进化。华为基于城市智能体架构,在AI大模型方面旨在为每个城市打造专属的大模型,并从四大场景实现智能化升级:● 政务服务大模型:围绕优政、利民、惠企三大场景,通过三大智能助手提升工作人员、民众、企业的业务体验,打造能理解、会思考、有温度的政务服务。● 政务办公大模型:打造公务员个人专属办公助手,办公全程有帮手;实现“一句话”办文、“一句话”办会、“一句话”办事,提升公务员办公效率。● 城市治理大模型:通过CV(视觉)大模型与NLP(自然语言处理)大模型,赋能城市治理,让城市管理者基于“千里眼”“顺风耳”,实现全域感知;基于智能分拨助手,实现事件处置全流程智能化,提升处理效率。● 城市安全感知大模型:利用城市海量视频资源,结合CV大模型的图像泛化分析能力,快速、全面感知安全事件,同时结合场景小模型协同发现,实现城市安全风险的全域感知。华为政务一网通军团研发总裁 陈金助城市智能体以开放的技术架构,成为驱动城市数字化发展的核心生产力,助力智慧城市建设迈向新台阶城市智能体是支撑城市长期发展的先进理念和开放技术架构,将全面支撑数字中国高质量建设。在构建能感知、会思考、有温度、可进化的生命之城愿景目标指引下,城市智能体通过物联感知、人工智能、高效算力、泛在网络等数字技术,与公众服务、城市治理、协同办公、产业赋能等场景深度融合,全面促进数字经济、数字政务、数字社会建设。在大模型生态共建与技术创新主题演讲中,华为云人工智能与大数据领域总裁尤鹏、深圳开鸿数字产业发展有限公司CEO王成录、鹏城实验室智能计算部主任、清华大学教授陈文光及竹间智能科技(上海)有限公司创始人兼CEO简仁贤,也分别发表了主题演讲,分别阐述及分享了“共筑城市智能体,深耕城市数智化”中的解决方案及成功经验,如OpenHarmony城市感知体系、“算力+大模型” 城市智能化底座、盘古大模型和昇腾算力的一体机等,为城市智能体的发展注入强劲力量。其中,尤鹏在《可进化:盘古大模型赋能千行万业》中表示,大模型正在推动AI从“作坊式”到“工业化”,从“感知”到“创造”,并在重塑千行百业的发展前景。面向未来,华为云将充分发挥大模型领域的技术积累和工程能力优势,让客户、伙伴快速构建起盘古大模型的开发和应用能力,以澎湃的昇腾AI算力和开放的盘古大模型为基础,让AI重塑千行万业。华为云人工智能与大数据领域总裁 尤鹏万物根生,迈向智能世界。华为期待与更多客户、伙伴一起,共筑城市智能体,深耕城市数智化,合力加快数字中国建设,推进中国式现代化。
  • [热门活动] HCDG城市行 · 青岛站——“行业重塑、开放同飞”华为云盘古大模型研讨会成功举办
    9月6日,华为云HCDG城市行青岛西海岸站——“行业重塑、开放同飞”华为云盘古大模型研讨会成功举办。活动由华为(青岛)数字城市联合创新中心主办,围绕大模型技术创新、生态构建与产业化应用深入交流,旨在推动西海岸新区大模型产业生态建设与高质量发展。来自中国石油大学、山东科技大学、青岛黄海学院、青岛职业技术学院等高校学者专家及海之晨、星科瑞升、浩谦科技、一凌网、赛博贝斯、中科华智、万腾电子、服设未来、云起数智等企业专家共20余人参与研讨会。活动特别邀请了华为云EI服务产品部专家进行“华为盘古大模型:行业重塑、开放同飞”的主题分享,专家从人工智能行业发展及面临挑战入手,介绍了华为云在大模型算法、应用和平台等方面的系统性布局,并进行了AI for Industries与盘古大模型生态专题分享。华为云通过构建全面的AI产业生态,以技术创新和平台赋能,助力数字经济高质量发展。盘古系列大模型的参数规模超过千亿级,技术能力和应用范围持续增强。华为大模型坚守“不作诗,只做事”的理念,已在政务、金融、制造、煤矿、铁路、制药、气象等领域实现落地,对推动各行业数字化转型发挥重要作用。随后,华为(青岛)数字城市联合创新中心相关负责人进行了华为云开发者认证相关分享,华为云开发者认证是华为云聚焦云上应用设计、构建和运维打造的系统化认证,帮助开发者基于华为云服务及工具进行开发、实践、应用构建,与云上技术齐驱并进,助力开发者职业成功,满足产业人才发展需要。作为华为云HCDG城市行在青岛的第一站,华为(青岛)数字城市联合创新中心联合参会的企业专家与高校学者现场建立了当地的开发者技术生态圈,以促进开发者学习提升、互动交流、挖掘合作,推动技术应用与本地产业结合、数智化转型和开发者文化发展,未来创新中心也将组织更多HCDG活动落地青岛。大模型正在重塑千行百业,华为云将充分发挥大模型领域的技术积累和工程能力优势,围绕行业重塑、技术扎根、开放同飞三大方向,让客户、伙伴快速构建起盘古大模型的开发和应用能力,让盘古大模型成为每个企业实现战略转型和智能升级的核心动力。
  • [问题求助] MoE-LLM模型在自然语言处理任务中,如何选择合适的预训练模型作为基座进行微调?有没有一些预训练模型选择的实用技巧?
    MoE-LLM模型在自然语言处理任务中,如何选择合适的预训练模型作为基座进行微调?有没有一些预训练模型选择的实用技巧?
  • [问题求助] 如何结合MoE-LLM模型和其他深度学习模型进行联合建模?例如,与生成对抗网络(GAN)或变分自编码器(VAE)等模型进行结合。
    如何结合MoE-LLM模型和其他深度学习模型进行联合建模?例如,与生成对抗网络(GAN)或变分自编码器(VAE)等模型进行结合。
  • [问题求助] MoE在解决不平衡数据问题时,有没有一些有效的处理方法?比如过采样、欠采样或者其他的处理策略?有没有可用的过采样或欠采样技术?
    MoE在解决不平衡数据问题时,有没有一些有效的处理方法?比如过采样、欠采样或者其他的处理策略?有没有可用的过采样或欠采样技术?
  • [问题求助] 在使用MoE-LLM模型进行模型开发时,如何确定模型的架构和参数设置?有没有推荐的实践方法或经验准则?
    在使用MoE-LLM模型进行模型开发时,如何确定模型的架构和参数设置?有没有推荐的实践方法或经验准则?
  • [热门活动] 【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.47:看直播提问题赢华为云定制保温杯、华为云定制无线鼠标等好礼!
    中奖结果公示感谢各位小伙伴参与本次活动,本次活动获奖名单如下:请获奖的伙伴在11月6日之前点击此处填写收货地址,如逾期未填写视为弃奖。再次感谢各位小伙伴参与本次活动,欢迎关注华为云DTSE Tech Talk 技术直播更多活动~直播简介【直播主题】MoE-LLM:开启大模型终身学习的可能性【直播时间】2023年11月1日 16:30-18:00【直播专家】吕昱峰 华为昇思MindSpore DTSE技术布道师【直播简介】多专家系统(Mixture of Experts,MoE)是大模型时代提高模型参数量的重要技术手段,而随着大模型的不断演进发展,怎么样使大模型具备持续终身学习能力,通过持续的数据不断提升大模型也成为了重要问题。MoE技术和持续终身学习的碰撞,使大模型具备终身学习成为可能。本次直播讲系统讲解终身学习、MoE技术,并以Google的lifelong-MoE和华为Pangu-sigma模型为例,阐述LLM终身学习的可能性。直播链接:cid:link_1活动介绍【互动方式】直播前您可以在本帖留下您疑惑的问题,专家会在直播时为您解答。直播后您可以继续在本帖留言,与专家互动交流。我们会在全部活动结束后对参与互动的用户进行评选。【活动时间】即日起—2023年11月2日【奖励说明】评奖规则:活动1:直播期间在直播间提出与直播内容相关的问题,对专家评选为优质问题的开发者进行奖励。奖品:华为云定制保温杯活动2:在本帖提出与直播内容相关的问题,由专家在所有互动贴中选出最优问题贴的开发者进行奖励。奖品:华为云定制无线鼠标更多直播活动直播互动有礼:官网直播间发口令“华为云 DTSE”抽华为云定制飞盘、填写问卷抽华为云定制保温杯等好礼分享问卷有礼 :邀请5位朋友以上完成问卷即可获得华为云定制帆布袋。老观众专属福利:连续报名并观看DTT直播3期以上抽送华为云DTT定制T恤。【注意事项】1、所有参与活动的问题,如发现为复用他人内容或直播间中重复内容,则取消获奖资格。2、为保证您顺利领取活动奖品,请您在活动公示奖项后2个工作日内私信提前填写奖品收货信息,如您没有填写,视为自动放弃奖励。3、活动奖项公示时间截止2023年11月3日,如未反馈邮寄信息视为弃奖。本次活动奖品将于奖项公示后30个工作日内统一发出,请您耐心等待。4、活动期间同类子活动每个ID(同一姓名/电话/收货地址)只能获奖一次,若重复则中奖资格顺延至下一位合格开发者,仅一次顺延。5、如活动奖品出现没有库存的情况,华为云工作人员将会替换等价值的奖品,获奖者不同意此规则视为放弃奖品。6、其他事宜请参考【华为云社区常规活动规则】。
  • [技术干货] 使用bert(base)对比大语言模型(ChatGLM2-6B)做文本分类心得总结
    什么是bertBidirectional Encoder Representations from Transformers (BERT) 是一种基于变压器的机器学习技术,用于自然语言处理 (NLP) 预训练,由 Google 开发。 BERT 由 Jacob Devlin 和他的 Google 同事于 2018 年创建并发布。 2019 年,谷歌宣布已开始在其搜索引擎中使用 BERT,到 2020 年底,它几乎在所有英语查询中都使用了 BERT。 2020 年的一项文献调查得出结论,在一年多的时间里,BERT 已成为 NLP 实验中无处不在的基线,超过 150 篇研究出版物分析和改进了该模型。BERT 有两种模型:BERTBASE:12 个编码器和 12 个双向自注意头BERTLARGE:24 个编码器和 16 个双向自注意头。 两种模型都是根据从 BooksCorpus 中提取的 8 亿单词和英语维基百科中的 25 亿单词的未标记数据进行预训练的。bert与大模型(chatGPT)的区别Google 的 BERT(Bidirectional Encoder Representations from Transformers)和 ChatGPT(GPT-3.5)都是人工智能模型,但它们的应用场景和任务不同。BERT 是一种预训练语言模型,旨在为自然语言处理任务提供高质量的特征表示。它通过双向 Transformer 网络结构学习自然语言的上下文信息,从而在各种自然语言理解任务中表现出色,如文本分类、命名实体识别、情感分析等。BERT 模型的预训练数据来自于互联网上的大量文本语料库,例如维基百科和新闻文章等。而 ChatGPT 则是一种大型语言模型,旨在生成自然语言文本。它使用了单向的 Transformer 网络结构,并通过海量文本数据进行训练,从而学会生成人类类似的文本响应。ChatGPT 的应用场景主要是在线聊天机器人、自然语言生成、文本摘要等。虽然 BERT 和 ChatGPT 都是基于 Transformers 模型开发的,但它们的应用领域和任务不同,因此它们的结构和预训练数据也不同。在实际应用中,研究人员可以根据具体任务需求选择合适的模型进行微调和优化。bert与大模型(ChatGLM2-6B)在中文训练规模上的区别BERT 和 ChatGLM2-6B 都是基于 Transformers 模型的人工智能助手,但它们的训练规模和能力有所不同。以下是 BERT 和 ChatGLM2-6B 训练规模之间的对比:模型结构: BERT 是一种双向 Transformer 模型,采用双向编码器来学习文本数据中的上下文信息。它的预训练目标是最大化预测下一句的正确概率。BERT 模型有多种版本,如 BERT-base(1.1 亿参数)、BERT-large(3.4 亿参数)和 BERT-xl(11 亿参数)。 ChatGLM2-6B 是一种基于 BERT 模型的改进版,采用了单向 Transformer 网络结构。它的预训练目标是生成自然语言文本。ChatGLM2-6B 模型的版本为 ChatGLM2-6B,参数数量为 6 亿。训练数据: BERT 和 ChatGLM2-6B 的训练数据有所不同。BERT 的预训练数据主要包括了维基百科(英语版)和新闻文章等互联网文本资源。而 ChatGLM2-6B 的训练数据主要来源于清华大学 KEG 实验室和智谱 AI 公司提供的中文语料库,包括网页、书籍、新闻、论坛、问答对话等。训练规模: 从上述模型版本中,我们可以看出 ChatGLM2-6B 模型的训练规模大于 BERT 模型。ChatGLM2-6B 模型的参数数量为 6 亿,而 BERT-xl 只有 11 亿。这意味着 ChatGLM2-6B 模型在处理自然语言任务时具有更强的表达能力。性能和应用场景: ChatGLM2-6B 模型在保留了 BERT 模型优点的基础上,针对中文问答场景进行了优化。相较于 BERT 模型,ChatGLM2-6B 模型在中文问答任务上具有更好的性能。此外,ChatGLM2-6B 模型还可以应用于其他自然语言处理任务,如文本分类、命名实体识别等。bert(base)做文本分类为啥比大模型(ChatGLM2-6B)快很多先说结论:我们的项目是对用户分类其他的评价,做一个预分类,看看具体是反馈给哪个部门。经过大量测试,我们发现bert模型,无论是训练还是生成,所耗费的时间都比chatGLM2-6B快非常多原因分析:BERT 和 ChatGLM2-6B 都是基于 Transformers 模型的人工智能助手,但它们在训练和生成速度上的差异,可能源于以下几个方面:模型结构: BERT 是一种双向 Transformer 模型,采用双向编码器来学习文本数据中的上下文信息。它的预训练目标是最大化预测下一句的正确概率。BERT 模型有多种版本,如 BERT-base(1.1 亿参数)、BERT-large(3.4 亿参数)和 BERT-xl(11 亿参数)。 ChatGLM2-6B 是一种基于 BERT 模型的改进版,采用了单向 Transformer 网络结构。它的预训练目标是生成自然语言文本。ChatGLM2-6B 模型的版本为 ChatGLM2-6B,参数数量为 6 亿。训练数据和预处理: BERT 和 ChatGLM2-6B 的训练数据有所不同。BERT 的预训练数据主要包括了维基百科(英语版)和新闻文章等互联网文本资源。而 ChatGLM2-6B 的训练数据主要来源于清华大学 KEG 实验室和智谱 AI 公司提供的中文语料库,包括网页、书籍、新闻、论坛、问答对话等。 在预处理方面,BERT 模型采用了掩码语言模型(Masked Language Model,MLM)进行预训练,而 ChatGLM2-6B 采用了下一句预测任务(Next Sentence Prediction,NSP)。MLM 预训练目标使得模型在生成文本时更关注词汇的上下文信息,而 NSP 则相对关注整句话的语义关系。这使得 BERT 在中文分类任务上表现较好。生成速度: 在生成速度方面,BERT 和 ChatGLM2-6B 的差异主要体现在生成任务的复杂性。BERT 模型在生成文本时,采用了无监督的 MLM 预训练目标,使得模型能够在没有明确任务指导的情况下生成连贯、自然的文本。而 ChatGLM2-6B 模型在生成任务上采用了有监督的 NSP 任务,其生成速度相对较慢,因为模型需要在给定上下文中预测下一个句子。综上所述,BERT 在中文分类任务上相较于 ChatGLM2-6B 具有优势,主要得益于其双向 Transformer 结构、MLM 预训练目标以及模型规模。而在训练和生成速度方面,主要得益于其较小的模型规模、高效的优化算法和硬件设施,因此快很多如果想提示ChatGLM2-6B的速度,建议量化到Int4,同时减少训练的轮数(但是这会使得丢失率变大),需要权衡利弊
  • [技术干货] 华为云盘古大模型原理概述
    背景和趋势LLM推理趋势模型大、推理慢、成本高长序列多模态Cache, Embeddings,和向量数据库三种典型部署场景及解决方案低时延(用户给定一个prompt希望更快得到答复):更多机器,模型并行,batch size=1长序列(例如新闻摘要业务):全面推理计算瓶颈,增加推理内存瓶颈高吞吐:降低生成每个token的成本,提升batch size生成式模型的原理生成式模型的推理过程主要包含两部分:全量推理:这个过程中,用户给一个query,然后输出第一个token。增量推理:这个过程要反复执行多次,一般生成多少个token就要执行多少次减一。这两个过程所面临的难点是不一样的全量推理:计算密集(每次计算一个token;一个大的权重矩阵 * 一个小的输入向量)增量推理:访存密集(加载大的权重矩阵;加载大的kv cache和序列长度成正比)大模型的核心三要素模型表现强烈依赖于模型规模,弱依赖于架构模型表现随着计算量(Compute)、数据量(Dataset Size)、和参数量(Parameters)提升 模型表现随着训练数据量和参数量的提升是可以预测的训练超大规模模型三大挑战大模型训练难点训练资源需求大:假设一万参数训练至少需要静态内存+动态内存4万GB(1250卡)模型能力要求强:客户行业/任务分散,算力/人力成本高,模型必须具备三种能力服务成本高:万亿参数模型服务至少需要3000GB(95卡)盘古大模型面临的设计难点对于“训练资源需求大”要解决:如何在有限资源(如512卡D910)高效训练对于“模型能力要求强”要解决:如何提高算法精度、多任务学习、终生学习对于“服务成本要求高”要解决:如何在单Server内(8卡)提供有效服务盘古-Sigma架构诞生因此,盘古大模型在设计的时候,除了要考虑如何应对上述挑战,还要考虑如何设计才能让模型有更好的延展性,可以基于该模型底座持续的研发和迭代更新。针对上述问题与挑战,盘古大模型设计了Sigma体系,它采用了存算分离的稀疏架构,通过不断的代码优化,实现了最优算法效率和最优系统效率,一举解决了三大难题盘古-∑架构设计理念从稠密到稀疏的模块化扩展华为云最早设计的是盘古α这种稠密的架构。盘古∑架构是基于盘古α进行演进的一种更先进的架构。盘古∑模型首先继承了盘古α稠密模型的权重,同时高效扩展了模型的transformer层,将其中的部分用稀疏模型进行扩展。总所周知,神经网络中越高层级的学习到的是一些越具体的知识,越下层的学习的是一些越抽象的知识。而由于上层主要用来存储知识,这项改动能大大提升了模型知识存储的容量。而稀疏模型的推理成本仅仅相当于稠密的Num_Expert分之一,有绝对的优势模块化终生学习FFN2MOE:继承盘古alpha的知识,加速收敛两级分层随机专家路由:任务-专家细粒度控制;专家负载均衡;分组All-to-All通信节约专家编辑:支持任意新增、修改、删除专家;分组专家裁剪,单领域模型极致部署领域Embedding扩增技术:单语言到多语言扩增;单领域到多领域扩增高性能异构训练-最优系统效率传统训练仅采用GPU或CPU(GPU比CPU快很多,所以绝大部分训练都是采用GPU)而盘古Sigma模型采用CPU+GPU的方式进行训练,采用存算分离+稀疏模型的方式,每次技术的时候只将其中的一部分子图给抽象出来,然后前向后向的时候只计算某个网络中的一部分,并且只传输这一部分的梯度值,这样就可以大大提高了模型的算力和计算效率。这是1.085万亿参数盘古Sigma西安超算吞吐性能(Tokens/s)(使用了存算分离+稀疏模型后,吞吐量大概提升了6倍)以及1.085万亿参数盘古Sigma收敛曲线(持续稳定训练中)中文基础任务精度-最优算法效率下图是盘古Sigma与百度ERNIE3.0执行10个中文下游任务ZERO-SHOT测评的各项参数对比(可以看出盘古大模型中文子模型各项精度,都远超2600亿参数的百度ERNIE3.0)压缩加速技术针对上文提到的生成式模型推理的原理,盘古大模型采用了如下的加速方案模型大、推理慢主要是内存占用问题模型:例如175B这种千亿模型需要占用350GB内存kv cache:显存占用和序列长度成正比,175B模型4k长度占用576G解决方案模型压缩:4/8-bit权重量化算法QuantGPT。昇腾亲和量化算子使得模型内存降低2倍,推理加速20-30%kv cache压缩:kv cache 8-bit量化之后内存占用降低50%+长序列长context length全量推理的O(n^2)计算复杂度内存高效的Attention算子:单算子支持256k长度增量推理的O(n)内存复杂度kv cache多级多维度卸载Recomputation:kv部分缓存,部分计算长decode length对话历史cache:检索换计算拷贝机制和投机小模型:检索与计算融合高效部署CPU高效解码解码策略优化并行编码高效sortSampling算子softmax算子全量和增量分离部署全量推理 -> batch size=1 改进时延增量推理 -> 大 batch size 提升吞吐动态batch:解码完成的样本提前退出及时补进新的样本量化LLM模型(例如BERT/GPT2)最早是采用低比特、高精度的这种方式,但随着模型规模到达百亿、千亿,慢慢演变为了后量化这种技术生成式模型可以做很多种量化权重量化:量化完之后模型就小了,模型所占用的内存就小了,增量推理需要加载的权重也少了,这样做以后就有一个整体的降低内存和加速的效果权重量化 + 输入量化:这个技术在以前计算密集的,像BERT这种模型中用的最多的技术。但是在盘古模型上我们是不用的,因为增量推理主要是访存密集的,该方案在精度上会造成较大的损失权重量化 + kv cache量化:主要是因为kv cache如果在长序列模型大的情况下,可能会占用非常大的内存。如果和权重一起使用的话,可以把整个推理系统的内存占用降下来,而且可以把整体通信降下来,达到一个加速的效果权重量化: 8-bit量化模型权重内存占用降低一半,推理加速25%+Matrix-Vector单算子时延收益如下 伪量化算法(编辑距离)收益如下 时延收益如下 kv cache量化: 8-bit量化kv cache内存占用降低一半KV cache "per-channel" 量化 当前效果 搜索引擎内部逻辑LLM与搜索引擎的结合,作为搜索引擎的演进方向,可以较好地解决事实问题和时效性问题信息搜索:查询决策;查询语句生成;复杂查询语句分解;查询结果判别;查询结果摘要信息整合:多文档总结与归纳;思维链推理;回复生成信息校验:事实性校验;实时性校验;无害性校验使用工具在上下文学习能力较弱时:通过SFT实现外部工具调用在上下文学习能力较强,但思维链能力还较弱时:通过自定义插件(只需提供插件的描述,无需SFT)实现插件调用(Plugin-in形式)在思维链能力较强时:通过思维链进行任务分解,实现外部工具的规划、调用和搜索,以完成复杂任务(Agent形式,类AutoGPT形式)通过SFT实现外部工具调用例如:通过调用Python引擎完成常用数学计算和推理等日常任务简单数学表达式简单数学应用题复杂数学应用题(鸡兔同笼:调用Sympy库)表格处理(调用Pandas库)日历查询(调用日历API)单位换算解微积分题画函数曲线通过插件形式调用工具实现搜集很多插件,然后将每个插件写一个描述。盘古实现了一个类似搜索引擎的功能,根据用户描述然后去找一个插件,并调用该插件获取结果,最后整合并呈现出来Agent形式通过调用外部工具解决复杂问题通过类似思维链的技术,将任务进行分解,一步步的去求解,然后校验,全部解完后再将其进行整合盘古画画文生图模型发展历史从自回归模型(DALL-E),慢慢演进到 扩展模型 Diffusion Model(ADM、GLIDE、DALL-E 2、LDM)提升画质、艺术性、推理速度盘古画画模型2.0在1.0的基础上,根据画质、图文匹配、艺术性及推理速度上多个方面进行尝试和更新,其中包括:提升输出分辨率,支持原生768输出:512(v1)-> 768(v2)提供两个版本服务:标准版以及艺术增强版。标准版更倾向于还原文本表达,艺术增强版能得到更好的艺术效果基于A+M进行大规模多机多卡训练得到模型,全自研昇思平台和昇腾硬件910,训练相比N卡速度提升10%自研Multistep-SED采样加速,50步采样降到20-30步,加速30-50%采用自研RLAIF提升画质以及艺术性表达训练数据扩充为原来盘古中文图文对数据的2倍+,并增加多种艺术数据自研扩散模型的可控方差采样加速Multisetp-SEDDDIM一阶ODE求解器,最常用的采样方法,一般用迭代50步,使用新的采样技术Multistep-SDE,可以加速迭代至20-30步Multistep-SED:使用Stochastic Linear Multi-step Methods进行Reverse SDE进行采样引入随机性,提升生成图像的多样性,防止采样过程中陷入局部最优,提升采样质量理论与实证计算得到采样算法最优的noise schedule,减少超参设置效果:采样步数较多(~20步)的情况下,可以生成高质量的图片重点数据采集的采样性能上达到SoTA水平自研基于RLAIF的Prompt自动优化功能(提高艺术性)现有用户的实际输入往往是简短的,与盘古画画的训练输入(文本描述更全,且包含风格)不一致因此我们基于RLAIF方案引入LLM(语言大模型)来对齐用户的实际输入与画画的所需输入需要注意的是,prompt自动优化功能在端文本上效果会更加明显基于多reward函数与RLAIF的文生图模型优化提出两种新的文图模型细粒度语义奖励Caption/SAM RewardCaption Reward:实验BLIP2模型为图像生成相应的详细标题,然后通过测量生成的标题与给定提示之间的相似度来计算奖励分数SAM Reward:使用Grounded-SAM模型将生成的图像分割成局部部分,并通过测量每个类别出现在提示场景中的可能来评分这些部分。这个可能性是通过大型语言模型(Vicuna-7B)计算得到的提出联合多种奖励函数的组合排序优化策略来提升文图模型生成图片效果。下面是细粒度语义奖励及组合优化排序策略图例可视化及指标结果如下图在全新技术的加持下,画画2.0在10k的中文MSCOCO-CN数据集上的FID、IS、CLIP score 评测中达到了最先进的性能,详细数据如下表所示:基于扩散模型的文本-图像生成与对比学习模型DiffDis提出基于DIffusion(扩散模型)架构的图文判别模型统一多模态生成和判别预训练任务生成/判别单一模型生成和判别任务基于两套独立框架生成模型:扩散模型判别模型:多模态预训练对齐生成判别统一模型前向过程:类别文本/图像加噪->预测高斯噪声 逆向过程:基于文本条件的图像生成;基于图像条件的类别文本生成实验结果相对基准模型CLIP,DiffDis在12个数据集上的平均准确率提高了4.7%在COCO上,DiffDis在12T检索和T2I检索的R@1方面分别优于CLIP-ViT-L/14,提高了11.6%和8.2%DiffDis模型与StableDiffusion相比在FID上取得了1.0的提升下面是DiffDis与Stable Diffusion生成效果的对比图新/旧两版画画效果对比人像 传统任务 特定风格 总结本文首先介绍了LLM(大语言模型)诞生的背景及其趋势,然后进一步讲解了现在的大模型面临技术难点及挑战,最终引出华为盘古大模型。在介绍盘古大模型的设计原理的同时,一步步给读者揭露盘古大模型是怎样处理并解决这些难题的,同时深入的介绍了盘古模型用到的压缩加速技术、搜索引擎技术、以及盘古画画文生图模型。通读全文,详细你对当今的AI技术,一定会有一个更深入的了解,同时期待华为盘古大模型上线的实际运用!本文参与华为云社区【内容共创】活动第24期。 任务7:华为开发者大会2023(Cloud):盘古基础模型能力解密
总条数:36 到第
上滑加载中