-
应对通用人工智能挑战,发展新质生产力近日,李鸿飞老师受某国企邀请,为集团各级管理干部解读人工智能最新趋势与应用,发展新质生产力,李老师做了《应对AI时代挑战,加速企业数字化管理与运营,发展新质生产力》的专题讲座,从企业应用和个人学习两个方面,对管理团队提供新的知识与观念。由于有大量前沿信息与应用,特整理录音供大家参考。李老师首先感谢领导对AI前沿技术和新质生产力的重视,也感谢领导者对注重管理团队的学习和培养。李老师强调主要研究的是AI发展和RPA新一代数字技术在企业的应用,如何提高企业竞争力,如何降本增效,如何帮助企业数字化转型,可能在AI技术原理和发展路径上的一些看法和推论,不一定与技术专家相符,这些都是最前沿的实践,主要是想给大家带来一些启发和收获。01AI新一代数字技术对各行各业形成巨大影响李老师首先澄清了一个概念,我们普通人想象的人形机器人是强人工智能,实现的难度太大,而当前我们接触到的AI还在弱人工智能阶段,看到的AI机器人更像个玩具。强人工智能需要大语言模型及强大算力,大语言模型的参数量非常大,有数十亿甚至到万亿个,而且训练过程中也需要海量文本数据集,才能更好地理解人类的自然语言,以及生成高质量的文本。自从AI学科诞生以来,人工智能行业在近70年发展中经历多次繁荣与低谷,有很多次狼来了的故事,每次人工智能有点创新。新闻媒体,科幻电影都会叫到狼来了“ AI要统治世界啦,AI要毁灭人类了”,但最后的结果总让大家大失所望。这是因为人工智能这个行业,大众容易想象,媒体也喜欢炒作,大家一起幻想,结果期望越高,公众和投资者失望越大。AI行业经历过多次泡沫和二次发展低谷,留下的从业者扎扎实实研究应用,直到最近十几年有了深度学习,才有大的突破。计算机最初只能被动地接受人类输入的数据,就像人类的婴儿一样,只能等待喂养。当算力提升,特别是有了自然语言和图像处理能力以后,超级计算机可以通过网络获得海量的数据,包括文字、影像、语音,然后把它们融合在一起,产生多模态。形象地说是会听、会看、会学习了,然后就是会说、会动、会思考,这就是强人工智能。算力、算法、数据是人工智能三大要素,全部集齐才有爆发可能。由于以前算力、算法、数据总是缺一环、多数AI企业觉得通用人工智能不太可能实现,所以都做专用人工智能。我们前几年看到的人工智能应用,就象人脸识别、产品质量检测、语音输入、智慧停车等等,大多属于专用人工智能ANI,只能通过一套特定的算法,完成特定的任务。这些专用人工智能ANI,由该领域的企业提供服务,而这些算法并不公开,也不会开源。通用人工智能AGI,全称为Artificial General Intelligence。又称“强人工智能(Strong AI)”“完全人工智能(Full AI)”,是指具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。它能像人一样举一反三、触类旁通。同时它能理解文字,听得懂人的语言,看得见(摄像头)当前发生情景,与人类交流起来没障碍。遇到新任务时,还可以快速“想到”做过的相关事情并调用掌握的相关知识,创造性地解决问题、完成任务。通用人工智能的难度可想而知,由于通用人工智能AGI其具有广泛普惠性,并对人类社会有巨大影响,所以,通用人工智能大多会开源,这就给理解与跟进大模型,行业大模型、训练或微调企业大模型,成为后发红利,让企业AI员工、数字员工成为可能。从专用人工智能ANI,到通用人工智能AGI,到人工智能生成内容AIGC;这是人工智能行业重大进步。2016年谷歌的阿尔法GO打败李世石,曾经震惊了世界。围棋是人类最复杂的博弈游戏,这证明AI的智力超越了顶级人类,但这只是AI算力的成功,阿尔法go也是专用人工智能,除了下棋对我们没啥实际用途,很快就为大众遗忘。而Open AI公司2022年推出ChatGPT采用的是通用大模型,取名为聊天机器人,可以和人类对话。ChatGPT3.5具备了较高的智能和稳定性,聊天沟通的反响非常好,能生成高质量的内容,很多学生就用它来写论文了,员工也用写文案,真正普惠大众。2023年后推出的ChatGPT4.0具有多模态,就不仅仅是文字问答。也可以看图说话、数据推理、分析图表、角色扮演等,而且4.0考试成绩很高,相当于人类研究生水平了,生成内容水平,已经可以应用于企业的总结、分析、报告、培训等场景了。使用GPT4.0相当于用户有个研究生助理 ,GPT关键的是打通了AI通用人工智能的进化路线。让原来大家认为不可能的事成为了可能。2024年2月,OpenAI推出全新的生成式人工智能模型“Sora”, 文生视频,又叫世界模拟器,Sora可以根据用户的文本提示创建最长60秒的逼真视频,从提供的视频案例来看,Sora模型了解了不同物体在物理世界中的存在方式和运动规律,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。这个能力不仅仅是对电影特效、短视频制作、广告传播等行业有颠覆可能,关键它标志了通用人工智能AGI在理解真实世界场景,并与之互动的能力方面实现了飞跃。新分叉的AI技术成熟度曲线对2023年上市的GPT3.5,李老师当时就做了战略环境研判、数字化增效、创新人才引进、总经理开年演讲稿、LOGO设计,广告词撰写、政协提案、竞争数据收集、自动编程、员工发展与培训等十个场景应用测试,参见《当前ChatGPT能为企业做什么?来看看这10个测试》。认为ChatGPT不应叫聊天机器人,而是AI转换器或智能问答器,建议企业要重视和利用起来,而新的GPT4.0又有了十倍的提升。李老师接着分析了通用大模型在AIGC上的应用效果及前景,以及ChatGPT与人形机器人结合,认为此次通用人工智能爆发不是资本泡沫,确实是第四次工业革命开启。李老师从技术成熟度曲线来分析,对于AI行业进化,短短的二三年,已经形成几次标志性分叉来,专用人工智能ANI、通用人工智能AGI、人工智能生成内容AIGC,将来还有华为的行业人工智能等。今后我们说到人工智能,就要特指某个具体AI,就像古猿分化出类人猿,真立人,智人一样,各自有不同的命运。对此,李老师有三点推论,一是通用人工智能成为AI新的发展主线,可以关注作结合应用,其肯定有泡沫有夸大,但前景可期;二是受三要素制约,通用人工智能很快会遇到瓶颈;三是在这个时间节点,由专业智能ANI转入通用人工智能AGI的,或蹭热点新成立的通用人工智能公司多半不会持久,尽量避免与之合作。为了更好的理解未来趋势,李老师介绍了通用人工智能的原理,并对AGI领军企业美国OpenAI的发展过程、商业模式和产品路线进行分析讲解。其产品ChatGPT是通用人工智能道路上阶段成功的典范,ChatGPT是生成式+预训练+Transformer自注意力神经网络架构的成功组合,通过在大规模语料库中进行无监督预训练,从而学习到语言的内在规律和模式,获得巨大的成功。与我们常见的程序员编程不同,AI的机器学习是让计算机通过算法,去识别模式、做出预测和决策。而机器学习又分为:有监督学习、无监督学习、强化学习:有监督学习算法会接受有标签的训练数据,算法的目标是学习输入和输出之间的映射关系,无监督学习的数据是没有标签的,算法的任务是自主发现数据里的模式和规律。强化学习则是模型在环境里采取行动获得结果反馈,从反馈里学习。就跟家长带小孩似的,刚开始的时候小孩子什么都不懂,会随心所欲做出很多举动,但随着家长和小孩的教育和互动,小孩会发现某些好的举动能够获得奖励或零食,有些不礼貌的动作会遭受惩罚,通过观察动作和奖惩之间的联系,小孩的行为会逐渐接近期望。深度学习是后面发展出来的,它使用人工神经网络模仿人脑处理信息的方式,通过层次化的方法提取和表示数据的特征。生成式AI或AIGC就是深度学习的一种应用,它利用神经网络来识别现有内容的模式和结构,学习生成新的内容,可分为DNN、CNN、RNN等(略)。大脑神经元与学习成长AI获得如今的成功,在于模仿人类大脑的神经网络。脑科学发现,人的大脑是由近千亿个神经元组成,主要用来储存信息、整合信息。小朋友在学习的时候,大脑是将看到或听到的信息,通过某一个神经元,把信息传递给另一个神经元,然后再接着传递给下一个,就像是接力赛一样。传的时候也不是一条路走到底,而是在不同神经元间不断传递。每一段神经元只走自己那一段,就形成特别复杂的神经网络。所以,人类学习过程很复杂,早期的婴儿是需要手把手教的,像监督学习一样,要指着物体告诉他这是爸爸,这是妈妈。这是猫,这是狗。当看到足够多的猫和狗后,小孩才会分类和识别。然后就是家庭和老师不断监督学习和强化学习,以训练和培养小孩的智能。当学习复杂的知识或者问题时,小孩用到大脑神经元就越多,这样信息传递的时候,通路就越复杂,而且刚刚走通的连接,再走一遍的话,神经元连接的位置又会变掉,这就是小朋友刚刚记住的东西老会忘掉,前面学过的东西,现在又回忆不起来原因。这个神经元到那个神经元传递的路线发生变化了,化学信息传不过去了。这时候我们就利用重复强化,要求小朋友重复再来一遍、紧接再来一遍,多次重复以后,相当于告诉大脑,这个知识不是一次性,下次还要再走的,这时候大脑就开始重型结构性的调整,把这几个神经元连接起来,形成一条专线给小孩。拉通专线后就快多了,下次遇到这个问题的时候,大脑就直接反应过来。就像我们问3X7得多少?答案21不是算出来的,而是大脑直接在一条专线上回答了这个问题,这也是学习大量刷题有效的原因。通过重复和刻意练习可以改善神经元之间的连接,对成年人来说,当我们反复练习某项任务时,大脑的神经元会更有效地传递信息,这并不是肌肉记忆,而是形成神经元连接专线。这样,通过刻意练习,成年人可以更快、更准确地执行任务,并提高技能水平。小孩子到3岁开始自我意识萌芽,6-12岁性格发育开始成熟,初中、高中、大学都可以看作是有标注数据的预训练,帮助孩子形成足够的神经元连接专线,成为小镇作题家。而孩子的社会交往、阅读与上网等无监督学习,则形成他们自己的独特看法和三观,这是多样性和差异来源。关于人类的深度学习,李老师认为,可能是通过写论文搞研究或深度思考,在复杂的理论框架下,不断扩展我们思考的层次,从而对复杂事物进行分析、演算、推理、预测,最终才生成创新想法或结论。人工智能的神经网络,也是由许多基本的计算和存储单元组成,这些单元被称为神经元,这些神经元通过层层连接来处理数据,深度学习模型通常有很多层,GPT3有96层,GPT4就达到120层。算力的硬件投入更是巨大。以早期GPT3.0为例,3.0就用28万5千个CPU、1万个GPU和400Gbps的网络连接组成的Al超级计算机,而要训练这个超级大脑中的神经元连接,则需要预训练海量的数据内容,比如GPT3.0就将大量书籍、全部的维基百科、新闻、论坛及社交媒体内容等等总计3000亿文本单位,经过大量训练,确定适当1750亿参数,神经元和权重偏制,从而学习到语言的内在规律和特征,海量的人类数据喂养了ChatGPT,它学习到人类语言的内在规律和模式。ChatGPT 生成与输出原理大致是这样,通过预训练,GPT3.0有了各种参数与权重,就可以根据用户输入的上下文信息,尽可能地预测出下一个词的正确值。GPT预测出的下一个词主要是依据预训练得到的概率分布。它可以选择概率最高的词,也可以根据概率分布进行随机选择,选择出下一个词后,GPT将这个词添加到用户输入信息的末尾,然后重复上述过程,直到生成一个完整的句子或一段话。GPT3.0由于数据来源和数据量的原因,还只是人类普遍的看法,生成文本质量就有点象刚毕业大学生,生成内容有点用但比较空泛。由于ChatGPT4.0预训练数据更大,参数更多,通过预训练,就能获得社会各种类型人群的看法、语言特征和概率分布,ChatGPT4.0学会角色扮演,学会了人类根据不同场景、不同对象和不同诉求,“见人说人话,见鬼说鬼话”, 它可以心理医生、面试官、人生导师、专业顾问等等角色出现,并展开高层次高质量对话。通用人工智能将弥补人类智能,比如目前企业遇到的经营问题,首先是老板的算力不够了,就像老板要制定今年的销售增长目标,既要考虑市场容量、行业平均增长率、又要考虑竞争对手的增长速度、还要考虑本企业前几年的历史增长,还有团队成长潜力、公司资源财力等等,很多假设条件不能确定,能定准目标的老板极少,多数想破头最后还是拍脑袋。其次是以前的成功经验失效了,面对复杂的经济环境,原来老板认知的规律和模式发生了巨大的变化,用户需求、政府政策、供应链到底发生了什么变化?而认识人类的内在规律和模式,恰恰是通用人工智能的长项,只要有最新的数据,它就能识别出这种变化。通用人工智能可以辅助公司的决策,还有公司的战略和商业模式创新等等。我们培养一批人类的孩子智力需要几十年,而AI训练一次仅仅需要几周或者几个月,目前的gpt4.0考试中表现已经超过了90%以上的人类,根据GPT已经探出的成功路径(生成式+预训练+Transformer自注意力神经网络架构),其他各大企业的通用人工智能大模型必然爆发起来,这才是AGI未来巨大的前景。由于通用人工智能与人类大脑原理相似,随着投入越大,神经元越多,这就有些让人担心了,AI进化的速度太快,会不会产生自我意识,会不会对人类构成威胁。有一种说法,人是碳基生命,而人工智能是硅基生命。人工智能一定会替代人类。对此,李老师的看法大可不必担心:AGI目前是没有威胁的,当达到一定的神经元连接以后,AI可能会产生自我意识,其可能像我们的孩子一样,有青春期叛逆期,但不一定会对人类敌意或伤害,也可能会形成一种有益的共生关系。其次,人类也有预防的方案,首先超级AGI需要巨大的算力与联接,其次需要巨大的能源,人类完全可以断电拔管。另外通用型人工智能本身有很大的数据量,本体也很难逃出人类硬件设施。其他措施也有,马斯克用AI对抗AI,也是一种有效的方法。李老师简要介绍了我国各大企业布局的各模态AI模型进展,以及华为盘古大模型架构,并对通用人工智能有以下几点推论:一、通用人工智能是超级武器,投入巨大,利用它来干什么,肯定不只是做聊天或生成视频,比如用它来赢得美国总统大选,操纵股市期货、在军事领域,建立天网、做无人驾驶之类。二、通用人工智能新的产品将很快应用于企业 ,形成降维打击的竞争力,需要企业做好大量数据准备。三、AIGC只是通用人工智能的一个应用分支,生成内容已经达到商用标准,企业要尽快拿到这部分红利。其后,李老师分析了AIGC产业图谱、AIGC商业落地机遇, AIGC在各行业的应用场景,并与管理团队探讨如何利用这些技术会对企业提效。李老师进一步分析通用人工智能、特别是AIGC会对哪些岗位造成冲击,认为AGI、AIGC等新一代数字技术会减少一些职位需求,而不是取代,本质上是掌握AI技术的人取代了没有掌握AI技术的人。所以应对AIGC的挑战,管理者要未雨绸缪,及早学习准备。如何利用AIGC、 RPA机器人流程自动化等新技术,帮助企业降本增效,提高自己职场竞争力,请参看下一章。
-
盘古大模型应该如何集成到应用中?
-
一月问题总结如下:【1】用华为atlas300-3010 用于训练失败cid:link_3【2】如何展示这些图片呢cid:link_4【3】云平台第一次用,求助怎么导入transformers库啊?cid:link_0【4】 atlas 200 DK 制卡完成后启动不了cid:link_1【5】请问下,新人申请预测大模型一般几天可以通过申请。cid:link_2
-
华为云盘古大模型的文生图功能是只能生成卡通的,还是能生成逼真的真人画面?
-
华为云的盘古大模型 NL2SQL的能力如何?是否支持多表连接 和 窗口函数这种复杂的操作
-
华为云的盘古大模型,你们申请通过了吗?对话效果和ChatGPT3.5相比怎么样
-
大家在做《百模千态》项目的时候,有什么意见和建议,或者问题,欢迎在这里进行讨论
-
9月6日,华为云HCDG城市行青岛西海岸站——“行业重塑、开放同飞”华为云盘古大模型研讨会成功举办。活动由华为(青岛)数字城市联合创新中心主办,围绕大模型技术创新、生态构建与产业化应用深入交流,旨在推动西海岸新区大模型产业生态建设与高质量发展。来自中国石油大学、山东科技大学、青岛黄海学院、青岛职业技术学院等高校学者专家及海之晨、星科瑞升、浩谦科技、一凌网、赛博贝斯、中科华智、万腾电子、服设未来、云起数智等企业专家共20余人参与研讨会。活动特别邀请了华为云EI服务产品部专家进行“华为盘古大模型:行业重塑、开放同飞”的主题分享,专家从人工智能行业发展及面临挑战入手,介绍了华为云在大模型算法、应用和平台等方面的系统性布局,并进行了AI for Industries与盘古大模型生态专题分享。华为云通过构建全面的AI产业生态,以技术创新和平台赋能,助力数字经济高质量发展。盘古系列大模型的参数规模超过千亿级,技术能力和应用范围持续增强。华为大模型坚守“不作诗,只做事”的理念,已在政务、金融、制造、煤矿、铁路、制药、气象等领域实现落地,对推动各行业数字化转型发挥重要作用。随后,华为(青岛)数字城市联合创新中心相关负责人进行了华为云开发者认证相关分享,华为云开发者认证是华为云聚焦云上应用设计、构建和运维打造的系统化认证,帮助开发者基于华为云服务及工具进行开发、实践、应用构建,与云上技术齐驱并进,助力开发者职业成功,满足产业人才发展需要。作为华为云HCDG城市行在青岛的第一站,华为(青岛)数字城市联合创新中心联合参会的企业专家与高校学者现场建立了当地的开发者技术生态圈,以促进开发者学习提升、互动交流、挖掘合作,推动技术应用与本地产业结合、数智化转型和开发者文化发展,未来创新中心也将组织更多HCDG活动落地青岛。大模型正在重塑千行百业,华为云将充分发挥大模型领域的技术积累和工程能力优势,围绕行业重塑、技术扎根、开放同飞三大方向,让客户、伙伴快速构建起盘古大模型的开发和应用能力,让盘古大模型成为每个企业实现战略转型和智能升级的核心动力。
-
MoE-LLM模型在自然语言处理任务中,如何选择合适的预训练模型作为基座进行微调?有没有一些预训练模型选择的实用技巧?
-
如何结合MoE-LLM模型和其他深度学习模型进行联合建模?例如,与生成对抗网络(GAN)或变分自编码器(VAE)等模型进行结合。
-
MoE在解决不平衡数据问题时,有没有一些有效的处理方法?比如过采样、欠采样或者其他的处理策略?有没有可用的过采样或欠采样技术?
-
在使用MoE-LLM模型进行模型开发时,如何确定模型的架构和参数设置?有没有推荐的实践方法或经验准则?
-
中奖结果公示感谢各位小伙伴参与本次活动,本次活动获奖名单如下:请获奖的伙伴在11月6日之前点击此处填写收货地址,如逾期未填写视为弃奖。再次感谢各位小伙伴参与本次活动,欢迎关注华为云DTSE Tech Talk 技术直播更多活动~直播简介【直播主题】MoE-LLM:开启大模型终身学习的可能性【直播时间】2023年11月1日 16:30-18:00【直播专家】吕昱峰 华为昇思MindSpore DTSE技术布道师【直播简介】多专家系统(Mixture of Experts,MoE)是大模型时代提高模型参数量的重要技术手段,而随着大模型的不断演进发展,怎么样使大模型具备持续终身学习能力,通过持续的数据不断提升大模型也成为了重要问题。MoE技术和持续终身学习的碰撞,使大模型具备终身学习成为可能。本次直播讲系统讲解终身学习、MoE技术,并以Google的lifelong-MoE和华为Pangu-sigma模型为例,阐述LLM终身学习的可能性。直播链接:cid:link_1活动介绍【互动方式】直播前您可以在本帖留下您疑惑的问题,专家会在直播时为您解答。直播后您可以继续在本帖留言,与专家互动交流。我们会在全部活动结束后对参与互动的用户进行评选。【活动时间】即日起—2023年11月2日【奖励说明】评奖规则:活动1:直播期间在直播间提出与直播内容相关的问题,对专家评选为优质问题的开发者进行奖励。奖品:华为云定制保温杯活动2:在本帖提出与直播内容相关的问题,由专家在所有互动贴中选出最优问题贴的开发者进行奖励。奖品:华为云定制无线鼠标更多直播活动直播互动有礼:官网直播间发口令“华为云 DTSE”抽华为云定制飞盘、填写问卷抽华为云定制保温杯等好礼分享问卷有礼 :邀请5位朋友以上完成问卷即可获得华为云定制帆布袋。老观众专属福利:连续报名并观看DTT直播3期以上抽送华为云DTT定制T恤。【注意事项】1、所有参与活动的问题,如发现为复用他人内容或直播间中重复内容,则取消获奖资格。2、为保证您顺利领取活动奖品,请您在活动公示奖项后2个工作日内私信提前填写奖品收货信息,如您没有填写,视为自动放弃奖励。3、活动奖项公示时间截止2023年11月3日,如未反馈邮寄信息视为弃奖。本次活动奖品将于奖项公示后30个工作日内统一发出,请您耐心等待。4、活动期间同类子活动每个ID(同一姓名/电话/收货地址)只能获奖一次,若重复则中奖资格顺延至下一位合格开发者,仅一次顺延。5、如活动奖品出现没有库存的情况,华为云工作人员将会替换等价值的奖品,获奖者不同意此规则视为放弃奖品。6、其他事宜请参考【华为云社区常规活动规则】。
-
什么是bertBidirectional Encoder Representations from Transformers (BERT) 是一种基于变压器的机器学习技术,用于自然语言处理 (NLP) 预训练,由 Google 开发。 BERT 由 Jacob Devlin 和他的 Google 同事于 2018 年创建并发布。 2019 年,谷歌宣布已开始在其搜索引擎中使用 BERT,到 2020 年底,它几乎在所有英语查询中都使用了 BERT。 2020 年的一项文献调查得出结论,在一年多的时间里,BERT 已成为 NLP 实验中无处不在的基线,超过 150 篇研究出版物分析和改进了该模型。BERT 有两种模型:BERTBASE:12 个编码器和 12 个双向自注意头BERTLARGE:24 个编码器和 16 个双向自注意头。 两种模型都是根据从 BooksCorpus 中提取的 8 亿单词和英语维基百科中的 25 亿单词的未标记数据进行预训练的。bert与大模型(chatGPT)的区别Google 的 BERT(Bidirectional Encoder Representations from Transformers)和 ChatGPT(GPT-3.5)都是人工智能模型,但它们的应用场景和任务不同。BERT 是一种预训练语言模型,旨在为自然语言处理任务提供高质量的特征表示。它通过双向 Transformer 网络结构学习自然语言的上下文信息,从而在各种自然语言理解任务中表现出色,如文本分类、命名实体识别、情感分析等。BERT 模型的预训练数据来自于互联网上的大量文本语料库,例如维基百科和新闻文章等。而 ChatGPT 则是一种大型语言模型,旨在生成自然语言文本。它使用了单向的 Transformer 网络结构,并通过海量文本数据进行训练,从而学会生成人类类似的文本响应。ChatGPT 的应用场景主要是在线聊天机器人、自然语言生成、文本摘要等。虽然 BERT 和 ChatGPT 都是基于 Transformers 模型开发的,但它们的应用领域和任务不同,因此它们的结构和预训练数据也不同。在实际应用中,研究人员可以根据具体任务需求选择合适的模型进行微调和优化。bert与大模型(ChatGLM2-6B)在中文训练规模上的区别BERT 和 ChatGLM2-6B 都是基于 Transformers 模型的人工智能助手,但它们的训练规模和能力有所不同。以下是 BERT 和 ChatGLM2-6B 训练规模之间的对比:模型结构: BERT 是一种双向 Transformer 模型,采用双向编码器来学习文本数据中的上下文信息。它的预训练目标是最大化预测下一句的正确概率。BERT 模型有多种版本,如 BERT-base(1.1 亿参数)、BERT-large(3.4 亿参数)和 BERT-xl(11 亿参数)。 ChatGLM2-6B 是一种基于 BERT 模型的改进版,采用了单向 Transformer 网络结构。它的预训练目标是生成自然语言文本。ChatGLM2-6B 模型的版本为 ChatGLM2-6B,参数数量为 6 亿。训练数据: BERT 和 ChatGLM2-6B 的训练数据有所不同。BERT 的预训练数据主要包括了维基百科(英语版)和新闻文章等互联网文本资源。而 ChatGLM2-6B 的训练数据主要来源于清华大学 KEG 实验室和智谱 AI 公司提供的中文语料库,包括网页、书籍、新闻、论坛、问答对话等。训练规模: 从上述模型版本中,我们可以看出 ChatGLM2-6B 模型的训练规模大于 BERT 模型。ChatGLM2-6B 模型的参数数量为 6 亿,而 BERT-xl 只有 11 亿。这意味着 ChatGLM2-6B 模型在处理自然语言任务时具有更强的表达能力。性能和应用场景: ChatGLM2-6B 模型在保留了 BERT 模型优点的基础上,针对中文问答场景进行了优化。相较于 BERT 模型,ChatGLM2-6B 模型在中文问答任务上具有更好的性能。此外,ChatGLM2-6B 模型还可以应用于其他自然语言处理任务,如文本分类、命名实体识别等。bert(base)做文本分类为啥比大模型(ChatGLM2-6B)快很多先说结论:我们的项目是对用户分类其他的评价,做一个预分类,看看具体是反馈给哪个部门。经过大量测试,我们发现bert模型,无论是训练还是生成,所耗费的时间都比chatGLM2-6B快非常多原因分析:BERT 和 ChatGLM2-6B 都是基于 Transformers 模型的人工智能助手,但它们在训练和生成速度上的差异,可能源于以下几个方面:模型结构: BERT 是一种双向 Transformer 模型,采用双向编码器来学习文本数据中的上下文信息。它的预训练目标是最大化预测下一句的正确概率。BERT 模型有多种版本,如 BERT-base(1.1 亿参数)、BERT-large(3.4 亿参数)和 BERT-xl(11 亿参数)。 ChatGLM2-6B 是一种基于 BERT 模型的改进版,采用了单向 Transformer 网络结构。它的预训练目标是生成自然语言文本。ChatGLM2-6B 模型的版本为 ChatGLM2-6B,参数数量为 6 亿。训练数据和预处理: BERT 和 ChatGLM2-6B 的训练数据有所不同。BERT 的预训练数据主要包括了维基百科(英语版)和新闻文章等互联网文本资源。而 ChatGLM2-6B 的训练数据主要来源于清华大学 KEG 实验室和智谱 AI 公司提供的中文语料库,包括网页、书籍、新闻、论坛、问答对话等。 在预处理方面,BERT 模型采用了掩码语言模型(Masked Language Model,MLM)进行预训练,而 ChatGLM2-6B 采用了下一句预测任务(Next Sentence Prediction,NSP)。MLM 预训练目标使得模型在生成文本时更关注词汇的上下文信息,而 NSP 则相对关注整句话的语义关系。这使得 BERT 在中文分类任务上表现较好。生成速度: 在生成速度方面,BERT 和 ChatGLM2-6B 的差异主要体现在生成任务的复杂性。BERT 模型在生成文本时,采用了无监督的 MLM 预训练目标,使得模型能够在没有明确任务指导的情况下生成连贯、自然的文本。而 ChatGLM2-6B 模型在生成任务上采用了有监督的 NSP 任务,其生成速度相对较慢,因为模型需要在给定上下文中预测下一个句子。综上所述,BERT 在中文分类任务上相较于 ChatGLM2-6B 具有优势,主要得益于其双向 Transformer 结构、MLM 预训练目标以及模型规模。而在训练和生成速度方面,主要得益于其较小的模型规模、高效的优化算法和硬件设施,因此快很多如果想提示ChatGLM2-6B的速度,建议量化到Int4,同时减少训练的轮数(但是这会使得丢失率变大),需要权衡利弊
-
背景和趋势LLM推理趋势模型大、推理慢、成本高长序列多模态Cache, Embeddings,和向量数据库三种典型部署场景及解决方案低时延(用户给定一个prompt希望更快得到答复):更多机器,模型并行,batch size=1长序列(例如新闻摘要业务):全面推理计算瓶颈,增加推理内存瓶颈高吞吐:降低生成每个token的成本,提升batch size生成式模型的原理生成式模型的推理过程主要包含两部分:全量推理:这个过程中,用户给一个query,然后输出第一个token。增量推理:这个过程要反复执行多次,一般生成多少个token就要执行多少次减一。这两个过程所面临的难点是不一样的全量推理:计算密集(每次计算一个token;一个大的权重矩阵 * 一个小的输入向量)增量推理:访存密集(加载大的权重矩阵;加载大的kv cache和序列长度成正比)大模型的核心三要素模型表现强烈依赖于模型规模,弱依赖于架构模型表现随着计算量(Compute)、数据量(Dataset Size)、和参数量(Parameters)提升 模型表现随着训练数据量和参数量的提升是可以预测的训练超大规模模型三大挑战大模型训练难点训练资源需求大:假设一万参数训练至少需要静态内存+动态内存4万GB(1250卡)模型能力要求强:客户行业/任务分散,算力/人力成本高,模型必须具备三种能力服务成本高:万亿参数模型服务至少需要3000GB(95卡)盘古大模型面临的设计难点对于“训练资源需求大”要解决:如何在有限资源(如512卡D910)高效训练对于“模型能力要求强”要解决:如何提高算法精度、多任务学习、终生学习对于“服务成本要求高”要解决:如何在单Server内(8卡)提供有效服务盘古-Sigma架构诞生因此,盘古大模型在设计的时候,除了要考虑如何应对上述挑战,还要考虑如何设计才能让模型有更好的延展性,可以基于该模型底座持续的研发和迭代更新。针对上述问题与挑战,盘古大模型设计了Sigma体系,它采用了存算分离的稀疏架构,通过不断的代码优化,实现了最优算法效率和最优系统效率,一举解决了三大难题盘古-∑架构设计理念从稠密到稀疏的模块化扩展华为云最早设计的是盘古α这种稠密的架构。盘古∑架构是基于盘古α进行演进的一种更先进的架构。盘古∑模型首先继承了盘古α稠密模型的权重,同时高效扩展了模型的transformer层,将其中的部分用稀疏模型进行扩展。总所周知,神经网络中越高层级的学习到的是一些越具体的知识,越下层的学习的是一些越抽象的知识。而由于上层主要用来存储知识,这项改动能大大提升了模型知识存储的容量。而稀疏模型的推理成本仅仅相当于稠密的Num_Expert分之一,有绝对的优势模块化终生学习FFN2MOE:继承盘古alpha的知识,加速收敛两级分层随机专家路由:任务-专家细粒度控制;专家负载均衡;分组All-to-All通信节约专家编辑:支持任意新增、修改、删除专家;分组专家裁剪,单领域模型极致部署领域Embedding扩增技术:单语言到多语言扩增;单领域到多领域扩增高性能异构训练-最优系统效率传统训练仅采用GPU或CPU(GPU比CPU快很多,所以绝大部分训练都是采用GPU)而盘古Sigma模型采用CPU+GPU的方式进行训练,采用存算分离+稀疏模型的方式,每次技术的时候只将其中的一部分子图给抽象出来,然后前向后向的时候只计算某个网络中的一部分,并且只传输这一部分的梯度值,这样就可以大大提高了模型的算力和计算效率。这是1.085万亿参数盘古Sigma西安超算吞吐性能(Tokens/s)(使用了存算分离+稀疏模型后,吞吐量大概提升了6倍)以及1.085万亿参数盘古Sigma收敛曲线(持续稳定训练中)中文基础任务精度-最优算法效率下图是盘古Sigma与百度ERNIE3.0执行10个中文下游任务ZERO-SHOT测评的各项参数对比(可以看出盘古大模型中文子模型各项精度,都远超2600亿参数的百度ERNIE3.0)压缩加速技术针对上文提到的生成式模型推理的原理,盘古大模型采用了如下的加速方案模型大、推理慢主要是内存占用问题模型:例如175B这种千亿模型需要占用350GB内存kv cache:显存占用和序列长度成正比,175B模型4k长度占用576G解决方案模型压缩:4/8-bit权重量化算法QuantGPT。昇腾亲和量化算子使得模型内存降低2倍,推理加速20-30%kv cache压缩:kv cache 8-bit量化之后内存占用降低50%+长序列长context length全量推理的O(n^2)计算复杂度内存高效的Attention算子:单算子支持256k长度增量推理的O(n)内存复杂度kv cache多级多维度卸载Recomputation:kv部分缓存,部分计算长decode length对话历史cache:检索换计算拷贝机制和投机小模型:检索与计算融合高效部署CPU高效解码解码策略优化并行编码高效sortSampling算子softmax算子全量和增量分离部署全量推理 -> batch size=1 改进时延增量推理 -> 大 batch size 提升吞吐动态batch:解码完成的样本提前退出及时补进新的样本量化LLM模型(例如BERT/GPT2)最早是采用低比特、高精度的这种方式,但随着模型规模到达百亿、千亿,慢慢演变为了后量化这种技术生成式模型可以做很多种量化权重量化:量化完之后模型就小了,模型所占用的内存就小了,增量推理需要加载的权重也少了,这样做以后就有一个整体的降低内存和加速的效果权重量化 + 输入量化:这个技术在以前计算密集的,像BERT这种模型中用的最多的技术。但是在盘古模型上我们是不用的,因为增量推理主要是访存密集的,该方案在精度上会造成较大的损失权重量化 + kv cache量化:主要是因为kv cache如果在长序列模型大的情况下,可能会占用非常大的内存。如果和权重一起使用的话,可以把整个推理系统的内存占用降下来,而且可以把整体通信降下来,达到一个加速的效果权重量化: 8-bit量化模型权重内存占用降低一半,推理加速25%+Matrix-Vector单算子时延收益如下 伪量化算法(编辑距离)收益如下 时延收益如下 kv cache量化: 8-bit量化kv cache内存占用降低一半KV cache "per-channel" 量化 当前效果 搜索引擎内部逻辑LLM与搜索引擎的结合,作为搜索引擎的演进方向,可以较好地解决事实问题和时效性问题信息搜索:查询决策;查询语句生成;复杂查询语句分解;查询结果判别;查询结果摘要信息整合:多文档总结与归纳;思维链推理;回复生成信息校验:事实性校验;实时性校验;无害性校验使用工具在上下文学习能力较弱时:通过SFT实现外部工具调用在上下文学习能力较强,但思维链能力还较弱时:通过自定义插件(只需提供插件的描述,无需SFT)实现插件调用(Plugin-in形式)在思维链能力较强时:通过思维链进行任务分解,实现外部工具的规划、调用和搜索,以完成复杂任务(Agent形式,类AutoGPT形式)通过SFT实现外部工具调用例如:通过调用Python引擎完成常用数学计算和推理等日常任务简单数学表达式简单数学应用题复杂数学应用题(鸡兔同笼:调用Sympy库)表格处理(调用Pandas库)日历查询(调用日历API)单位换算解微积分题画函数曲线通过插件形式调用工具实现搜集很多插件,然后将每个插件写一个描述。盘古实现了一个类似搜索引擎的功能,根据用户描述然后去找一个插件,并调用该插件获取结果,最后整合并呈现出来Agent形式通过调用外部工具解决复杂问题通过类似思维链的技术,将任务进行分解,一步步的去求解,然后校验,全部解完后再将其进行整合盘古画画文生图模型发展历史从自回归模型(DALL-E),慢慢演进到 扩展模型 Diffusion Model(ADM、GLIDE、DALL-E 2、LDM)提升画质、艺术性、推理速度盘古画画模型2.0在1.0的基础上,根据画质、图文匹配、艺术性及推理速度上多个方面进行尝试和更新,其中包括:提升输出分辨率,支持原生768输出:512(v1)-> 768(v2)提供两个版本服务:标准版以及艺术增强版。标准版更倾向于还原文本表达,艺术增强版能得到更好的艺术效果基于A+M进行大规模多机多卡训练得到模型,全自研昇思平台和昇腾硬件910,训练相比N卡速度提升10%自研Multistep-SED采样加速,50步采样降到20-30步,加速30-50%采用自研RLAIF提升画质以及艺术性表达训练数据扩充为原来盘古中文图文对数据的2倍+,并增加多种艺术数据自研扩散模型的可控方差采样加速Multisetp-SEDDDIM一阶ODE求解器,最常用的采样方法,一般用迭代50步,使用新的采样技术Multistep-SDE,可以加速迭代至20-30步Multistep-SED:使用Stochastic Linear Multi-step Methods进行Reverse SDE进行采样引入随机性,提升生成图像的多样性,防止采样过程中陷入局部最优,提升采样质量理论与实证计算得到采样算法最优的noise schedule,减少超参设置效果:采样步数较多(~20步)的情况下,可以生成高质量的图片重点数据采集的采样性能上达到SoTA水平自研基于RLAIF的Prompt自动优化功能(提高艺术性)现有用户的实际输入往往是简短的,与盘古画画的训练输入(文本描述更全,且包含风格)不一致因此我们基于RLAIF方案引入LLM(语言大模型)来对齐用户的实际输入与画画的所需输入需要注意的是,prompt自动优化功能在端文本上效果会更加明显基于多reward函数与RLAIF的文生图模型优化提出两种新的文图模型细粒度语义奖励Caption/SAM RewardCaption Reward:实验BLIP2模型为图像生成相应的详细标题,然后通过测量生成的标题与给定提示之间的相似度来计算奖励分数SAM Reward:使用Grounded-SAM模型将生成的图像分割成局部部分,并通过测量每个类别出现在提示场景中的可能来评分这些部分。这个可能性是通过大型语言模型(Vicuna-7B)计算得到的提出联合多种奖励函数的组合排序优化策略来提升文图模型生成图片效果。下面是细粒度语义奖励及组合优化排序策略图例可视化及指标结果如下图在全新技术的加持下,画画2.0在10k的中文MSCOCO-CN数据集上的FID、IS、CLIP score 评测中达到了最先进的性能,详细数据如下表所示:基于扩散模型的文本-图像生成与对比学习模型DiffDis提出基于DIffusion(扩散模型)架构的图文判别模型统一多模态生成和判别预训练任务生成/判别单一模型生成和判别任务基于两套独立框架生成模型:扩散模型判别模型:多模态预训练对齐生成判别统一模型前向过程:类别文本/图像加噪->预测高斯噪声 逆向过程:基于文本条件的图像生成;基于图像条件的类别文本生成实验结果相对基准模型CLIP,DiffDis在12个数据集上的平均准确率提高了4.7%在COCO上,DiffDis在12T检索和T2I检索的R@1方面分别优于CLIP-ViT-L/14,提高了11.6%和8.2%DiffDis模型与StableDiffusion相比在FID上取得了1.0的提升下面是DiffDis与Stable Diffusion生成效果的对比图新/旧两版画画效果对比人像 传统任务 特定风格 总结本文首先介绍了LLM(大语言模型)诞生的背景及其趋势,然后进一步讲解了现在的大模型面临技术难点及挑战,最终引出华为盘古大模型。在介绍盘古大模型的设计原理的同时,一步步给读者揭露盘古大模型是怎样处理并解决这些难题的,同时深入的介绍了盘古模型用到的压缩加速技术、搜索引擎技术、以及盘古画画文生图模型。通读全文,详细你对当今的AI技术,一定会有一个更深入的了解,同时期待华为盘古大模型上线的实际运用!本文参与华为云社区【内容共创】活动第24期。 任务7:华为开发者大会2023(Cloud):盘古基础模型能力解密
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签