自然语言处理_标签_开发者_华为云

博客(191)
视频(0)
论坛(0)
云声(0)
代码示例(0)

HCIE-AI SA：大模型应用的数据
本章主要介绍了小模型和大模型训练数据集的差异性，并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。

剑指南天
发表于2026-06-11 16:00:13
785 0 1

785 0 1

本章主要介绍了小模型和大模型训练数据集的差异性，并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。
深度学习自然语言处理
HCIE-AI SA：大模型业务场景流程综述
本章介绍了大模型的特性、发展以及业务流程，笔试占比10%。

剑指南天
发表于2026-06-10 21:38:05
525 1 0

525 1 0

本章介绍了大模型的特性、发展以及业务流程，笔试占比10%。
自然语言处理
多模态原理--CLIP
CLIP 通过大量的图像和文本对的学习，通过图像和文本特征向量之间的余弦相似度来度量两者的相似性

剑指南天
发表于2026-05-31 12:26:49
409 1 0

409 1 0

CLIP 通过大量的图像和文本对的学习，通过图像和文本特征向量之间的余弦相似度来度量两者的相似性
深度学习自然语言处理
大模型原理--数据集格式和Chat Template
本文主要是打通从原始数据到模型训练/推理时所期待的字符串格式这一流程。

剑指南天
发表于2026-05-26 12:54:36
514 3 1

514 3 1

本文主要是打通从原始数据到模型训练/推理时所期待的字符串格式这一流程。
自然语言处理
大模型实践--多显卡分布式训练实践（基于DeepSpeed）
Qwen3-4B分布式全参微调实践

剑指南天
发表于2026-05-16 13:09:00
613 0 1

613 0 1

Qwen3-4B分布式全参微调实践
深度学习自然语言处理
大模型实践--QLoRA代码实践(基于Unsloth)
Qwen/Qwen3-0.6B 全参数微调需要的显卡内存接近30GB，无法在RTX3060显卡上面进行微调。所以本文基于 TRL 中用于监督微调的 SFT Trainer 和 Unsloth(QLoRA)工具，在RTX3060显卡上面实现 Qwen/Qwen3-0.6B 的参数高效微调。

剑指南天
发表于2026-05-15 18:46:03
820 1 2

820 1 2

Qwen/Qwen3-0.6B 全参数微调需要的显卡内存接近30GB，无法在RTX3060显卡上面进行微调。所以本文基于 TRL 中用于监督微调的 SFT Trainer 和 Unsloth(QLoRA)工具，在RTX3060显卡上面实现 Qwen/Qwen3-0.6B 的参数高效微调。
深度学习自然语言处理
大模型实践--QLoRA代码实践(基于PEFT)
Qwen/Qwen3-0.6B 全参数微调需要的显卡内存接近30GB，无法在RTX3060显卡上面进行微调。所以本文基于 TRL 中用于监督微调的 SFT Trainer 和 PEFT(QLoRA)工具，在RTX3060显卡上面实现 Qwen/Qwen3-0.6B 的参数高效微调。

剑指南天
发表于2026-05-15 13:28:18
784 0 2

784 0 2

Qwen/Qwen3-0.6B 全参数微调需要的显卡内存接近30GB，无法在RTX3060显卡上面进行微调。所以本文基于 TRL 中用于监督微调的 SFT Trainer 和 PEFT(QLoRA)工具，在RTX3060显卡上面实现 Qwen/Qwen3-0.6B 的参数高效微调。
深度学习自然语言处理
大模型实践--LoRA代码实践(基于PEFT)
Qwen/Qwen3-0.6B 全参数微调需要的显卡内存接近30GB，无法在RTX3060显卡上面进行微调。所以本文基于 TRL 中用于监督微调的 SFT Trainer 和 PEFT（LoRA）工具，在RTX3060显卡上面实现 Qwen/Qwen3-0.6B 的参数高效微调。

剑指南天
发表于2026-05-15 11:29:56
518 0 1

518 0 1

Qwen/Qwen3-0.6B 全参数微调需要的显卡内存接近30GB，无法在RTX3060显卡上面进行微调。所以本文基于 TRL 中用于监督微调的 SFT Trainer 和 PEFT（LoRA）工具，在RTX3060显卡上面实现 Qwen/Qwen3-0.6B 的参数高效微调。
深度学习自然语言处理
大模型实践--全参数微调代码实践
本文基于 TRL 中用于监督微调的 SFT Trainer 工具，实现 Qwen/Qwen3-0.6B 的全参微调。

剑指南天
发表于2026-05-14 17:25:00
490 0 1

490 0 1

本文基于 TRL 中用于监督微调的 SFT Trainer 工具，实现 Qwen/Qwen3-0.6B 的全参微调。
深度学习自然语言处理
大模型原理--TRL(SFT Trainer篇)
TRL提供的用于监督微调的 SFT Trainer 工具，可以实现全参数微调和参数高效微调。

剑指南天
发表于2026-05-14 09:18:44
578 1 1

578 1 1

TRL提供的用于监督微调的 SFT Trainer 工具，可以实现全参数微调和参数高效微调。
自然语言处理
大模型原理--混合精度计算
“混合”精度的精髓在于：用高精度（FP32）保证关键信息的准确性，用低精度（FP16/BF16）加速大部分运算和节省显存。

剑指南天
发表于2026-05-07 18:54:06
924 2 1

924 2 1

“混合”精度的精髓在于：用高精度（FP32）保证关键信息的准确性，用低精度（FP16/BF16）加速大部分运算和节省显存。
深度学习自然语言处理
生成式 UI 藏大招！看似露营案例，实则电商集成 GenUI SDK 干货
本文由云软件体验技术团队岑灌铭原创。从露营趣味案例入手，详解电商系统集成 GenUI SDK 完整实操~背景时针拨过周一晚上十点，XX大学男生寝室 502 里充斥着键盘敲击声和偶尔的鼾声。大二学生小明，一个典型的“行动派热血青年”，正瘫在床上刷着朋友圈。突然，他的手指停住了。屏幕上是隔壁班班花发的一组九宫格：精致的摩洛哥风帐篷、摇曳的煤油灯、噼啪作响的篝火，背景是浩瀚星空。配文：“周末，逃离...

OpenTiny
发表于2026-05-07 16:29:59
706 0 0

706 0 0

本文由云软件体验技术团队岑灌铭原创。从露营趣味案例入手，详解电商系统集成 GenUI SDK 完整实操~背景时针拨过周一晚上十点，XX大学男生寝室 502 里充斥着键盘敲击声和偶尔的鼾声。大二学生小明，一个典型的“行动派热血青年”，正瘫在床上刷着朋友圈。突然，他的手指停住了。屏幕上是隔壁班班花发的一组九宫格：精致的摩洛哥风帐篷、摇曳的煤油灯、噼啪作响的篝火，背景是浩瀚星空。配文：“周末，逃离...
OpenTiny UI 开发者开源自然语言处理
大模型基础--优化器
优化器（Optimizer）是一种用于调整神经网络参数（权重和偏置），用来最小化目标函数（如损失函数）的迭代优化算法。它决定了模型如何根据计算出的梯度来更新参数，是模型训练的核心组件。

剑指南天
发表于2026-05-07 14:04:33
708 0 1

708 0 1

优化器（Optimizer）是一种用于调整神经网络参数（权重和偏置），用来最小化目标函数（如损失函数）的迭代优化算法。它决定了模型如何根据计算出的梯度来更新参数，是模型训练的核心组件。
深度学习自然语言处理
大模型原理--分布式训练策略之ZeRO
在标准数据并行中，每个设备都保存完整的模型状态，导致跨设备的冗余存储，并严重限制了可训练模型的规模(模型的规模受到显卡的限制，无法训练大规模参数的模型)。ZeRO的主要是为解决在标准数据并行中跨设备的冗余存储的问题。

剑指南天
发表于2026-05-06 20:41:40
553 2 2

553 2 2

在标准数据并行中，每个设备都保存完整的模型状态，导致跨设备的冗余存储，并严重限制了可训练模型的规模(模型的规模受到显卡的限制，无法训练大规模参数的模型)。ZeRO的主要是为解决在标准数据并行中跨设备的冗余存储的问题。
自然语言处理
大模型原理--分布式训练策略之流水线并行、张量并行和专家并行
通过各种形式的切分，将模型以及数据分配到其他GPU硬件，从而突破单设备在模型容量上的限制，使训练超大规模模型成为可能。

剑指南天
发表于2026-05-06 11:46:09
641 0 1

641 0 1

通过各种形式的切分，将模型以及数据分配到其他GPU硬件，从而突破单设备在模型容量上的限制，使训练超大规模模型成为可能。
自然语言处理

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript