- 数据并行通过将需要训练的数据分摊给其他的GPU硬件,从而加快整体训练速度。 数据并行通过将需要训练的数据分摊给其他的GPU硬件,从而加快整体训练速度。
- 残差结构与归一化机制是Transformer稳定训练的基础。 残差结构与归一化机制是Transformer稳定训练的基础。
- KV Cache显存占用的因素有大模型的层数、MHA中的头数、kv向量的长度、数字表示的精度、上下文长度以及推理请求的个数。其中上下文长度,推理请求的个数会动态的影响KV Cache,会造成KV Cache缓存规模成倍的增加,物理显存限制和显存带宽会显著影响计算效率。 KV Cache显存占用的因素有大模型的层数、MHA中的头数、kv向量的长度、数字表示的精度、上下文长度以及推理请求的个数。其中上下文长度,推理请求的个数会动态的影响KV Cache,会造成KV Cache缓存规模成倍的增加,物理显存限制和显存带宽会显著影响计算效率。
- 混合专家模型(MoE,Mixture of Experts)核心思想是:使用多个并行的 FeedForward(专家)替代单一的 FeedForward 层,并通过 Router(路由器)根据输入 Token 选择其中少量最合适的专家参与计算。这样大幅增加了模型的总参数量,又不会等比例增加计算量 混合专家模型(MoE,Mixture of Experts)核心思想是:使用多个并行的 FeedForward(专家)替代单一的 FeedForward 层,并通过 Router(路由器)根据输入 Token 选择其中少量最合适的专家参与计算。这样大幅增加了模型的总参数量,又不会等比例增加计算量
- QLoRA 的核心思想是:先对预训练模型权重和优化器状态的显存占用进行压缩,再在其上应用 LoRA 进行参数高效微调。 QLoRA 的核心思想是:先对预训练模型权重和优化器状态的显存占用进行压缩,再在其上应用 LoRA 进行参数高效微调。
- 在全量微调(Full Fine-tuning)过程中,权重增量形成的矩阵是低秩矩阵。 在全量微调(Full Fine-tuning)过程中,权重增量形成的矩阵是低秩矩阵。
- 激活函数的存在是为神经网络引入了非线性,使得神经网络能够学习和表示复杂的非线性关系。 激活函数的存在是为神经网络引入了非线性,使得神经网络能够学习和表示复杂的非线性关系。
- “猫吃鱼”和“鱼吃猫”? “猫吃鱼”和“鱼吃猫”?
- 随着模型越来越大,上下文越来越长,传统注意力机制的问题逐渐暴露出来。为了解决问题,业界提出了一系列结构的改进,在保持模型能力的同时显著提升了推理效率。 随着模型越来越大,上下文越来越长,传统注意力机制的问题逐渐暴露出来。为了解决问题,业界提出了一系列结构的改进,在保持模型能力的同时显著提升了推理效率。
- 回顾 GPT 系列的发展演化,对生成式大模型的祛魅,以及对深入理解大语言模型的技术路径与能力形成的机制具有重要意义。 回顾 GPT 系列的发展演化,对生成式大模型的祛魅,以及对深入理解大语言模型的技术路径与能力形成的机制具有重要意义。
- 本文将深度拆解 GenUI SDK 六大核心开发特性,帮助你全面了解这一革命式的 AI 应用开发工具。 本文将深度拆解 GenUI SDK 六大核心开发特性,帮助你全面了解这一革命式的 AI 应用开发工具。
- 基于Transformer预训练-BERT构建一个文本情感分类模型 基于Transformer预训练-BERT构建一个文本情感分类模型
- 基于传统序列模型(RNN,LSTM和GRU)构建文本情感分类模型 基于传统序列模型(RNN,LSTM和GRU)构建文本情感分类模型
- 基于神经网络构建一个文本情感分类模型 基于神经网络构建一个文本情感分类模型
- 纯手工打造Transformer代码 纯手工打造Transformer代码
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签