• [技术干货] Encoder(编码器)简介
    Encoder(编码器) 就像是一个"智能理解器",它的工作是深度分析输入的文本(比如一句话或一个词)。具体来说:输入:你给它一段文字(比如:“我爱编程”),它会先把文字拆成小单元(叫"tokens",比如"我"/“爱”/“编程”)。核心处理:• 自注意力机制(Self-Attention):让每个词去"观察"其他词的关系。比如分析"编程"时,会同时考虑前面的"我"和"爱",理解整句话的上下文。• 前馈神经网络(Feed-Forward):进一步加工信息,提取更复杂的特征。输出:最终生成一组"懂上下文的新表示"——每个词不再孤立,而是携带了整句话的语义信息(比如"编程"会带有"我喜爱"的语境)。类比:就像你读小说时,看到一个角色名字会联想到之前的情节。Encoder做的就是类似的事,让计算机真正"理解"语言的上下文关系。这种技术是Transformer模型(如ChatGPT的核心架构)的关键部分,专门用于处理语言理解任务。
  • [技术干货] ChatGPT的设计极简概述
    纯解码器结构:无编码器,仅用掩码自注意力自回归生成文本。超大参数量:如GPT-3达1750亿参数,96层解码器。训练技术:• RLHF(人类反馈强化学习):分三步(监督微调、奖励模型训练、PPO优化)。• 长上下文支持:如GPT-4 Turbo支持128K tokens。辅助系统:子词分词器(Tokenizer)、API安全过滤等。
  • [技术干货] Transformer模型的核心组成
    Encoder(编码器)• 输入处理:词嵌入(Word Embedding) + 位置编码(Positional Encoding)• 核心结构:◦ 多头自注意力(Multi-Head Self-Attention):通过Query/Key/Value机制计算词间关系,并行多组注意力捕捉不同特征。◦ 前馈神经网络(FFN):两段线性变换 + ReLU激活,增强非线性能力。◦ 残差连接 & 层归一化:每层输出加回输入(残差),再标准化(LayerNorm),解决梯度消失和训练稳定性问题。• 堆叠多层:通常6-12层,逐层提取更复杂特征。Decoder(解码器)• 核心结构:◦ 掩码自注意力:防止未来词泄露(生成时只能看已生成部分)。◦ 交叉注意力:连接编码器的输出(参考源语言信息)。◦ 同样包含FFN和残差连接。输出层:线性变换 + Softmax,生成概率分布预测下一个词。
  • Head Dimension简介
    注意力头维度(Head Dimension)是Transformer模型中多头注意力机制(Multi-Head Attention)的一个关键参数,表示每个注意力头(Head)中键(Key)、查询(Query)和值(Value)向量的特征维度。它的作用是为模型提供不同的子空间来学习多样化的注意力模式。核心概念多头注意力机制:将输入序列的嵌入表示(Embedding)拆分为多个“头”(Head),每个头独立计算注意力权重。最终将所有头的输出拼接起来,通过线性变换得到最终结果。Head Dimension的定义:假设输入向量的总维度是 d_model,头的数量是 h,则每个头的维度为:[\text{head_dim} = \frac{d_model}{h}]例如,d_model=512,h=8,则 head_dim=64。为什么需要Head Dimension?并行化学习:每个头在独立的子空间中学习不同的注意力模式(例如关注局部/全局、语法/语义等)。较小的 head_dim 可以降低计算复杂度,但需平衡头的数量。计算效率:注意力分数的计算复杂度为 ( O(n^2 \cdot d) )(n为序列长度,d为维度)。通过拆分多头,实际复杂度变为 ( O(n^2 \cdot \frac{d}{h}) ),更高效。模型容量:更大的 head_dim 可能让单个头学到更复杂的模式,但需更多参数和计算资源。实际应用中的调整固定比例:通常保持 head_dim 和 h 的乘积等于 d_model(如原始Transformer论文)。例如,d_model=768,h=12 → head_dim=64。灵活设计:某些模型(如GPT-3)可能调整 head_dim 和 h 的比例以优化性能。极端情况下,head_dim=1(每个头仅关注一个标量特征)。示例代码(PyTorch)import torch import torch.nn as nn d_model = 512 h = 8 head_dim = d_model // h # 定义多头注意力层 multihead_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=h, head_dim=head_dim) # 输入序列(序列长度=10,batch_size=2) x = torch.randn(10, 2, d_model) # [seq_len, batch, d_model] output, _ = multihead_attn(x, x, x) 常见问题Head Dimension是否必须等于 d_model/h?不一定,但这是标准做法。某些模型(如ALBERT)会共享头的参数以减少计算量。维度如何影响性能?过小的 head_dim 可能限制单个头的表达能力,过大会增加计算开销。通常通过实验调整(例如在 64-128 之间)。与模型深度的关系?深层Transformer可能逐渐减少 h 并增大 head_dim,以捕捉更高阶特征。总结来说,Head Dimension是平衡模型表达能力、计算效率和并行化学习的关键参数,需要根据任务需求和资源约束合理设计。
  • 使用华为NPU的注意事项
    在使用华为NPU时,不要直接依赖npu-smi info中显示的物理NPU INDEX1. npu-smi info显示的是宿主机的全局物理索引物理索引与容器内逻辑索引不一致npu-smi是宿主机的管理工具,显示的NPU INDEX是全局物理索引(例如宿主机上的0,1,2,...)。但在容器中,通过ASCEND_VISIBLE_DEVICES环境变量限制可见设备后,代码中实际使用的是逻辑索引(从0开始的连续编号),而非物理索引。示例:宿主机有8个NPU,用户分配了物理卡3和5给容器:docker run -e ASCEND_VISIBLE_DEVICES=3,5 ...容器内通过npu-smi info仍会看到物理索引3和5,但代码中需使用逻辑索引0和1。2. 代码中必须使用逻辑索引华为NPU驱动要求逻辑索引华为NPU的驱动或框架(如MindSpore、TensorFlow等)会将ASCEND_VISIBLE_DEVICES指定的物理设备按顺序映射为逻辑索引。例如:# 容器内设置可见设备为物理卡3和5 os.environ['ASCEND_VISIBLE_DEVICES'] = '3,5' # 代码中调用逻辑索引0,实际对应物理卡3 device_id = 0 # 正确用法 若直接使用物理索引3,会因超出容器内逻辑索引范围(仅有0和1)导致错误。3. 避免资源冲突与权限问题容器内权限受限容器只能访问ASCEND_VISIBLE_DEVICES指定的物理设备。若用户误用npu-smi看到的物理索引(如直接调用未分配的卡0或1),可能因权限不足或设备不存在导致程序崩溃。4. 逻辑索引与物理索引的映射关系逻辑索引是容器内的“虚拟视图”通过ASCEND_VISIBLE_DEVICES设置的物理设备,在容器内会被重新编号为0,1,...,N-1。例如:宿主机物理索引:0,1,2,3,4,5,6,7容器内设置:ASCEND_VISIBLE_DEVICES=3,5容器内逻辑索引:0 -> 3,1 -> 5正确使用方法分配设备时指定物理索引在容器启动时通过环境变量指定宿主机的物理NPU:docker run -e ASCEND_VISIBLE_DEVICES=3,5 ...代码中始终使用逻辑索引在代码中按0,1,...顺序调用设备,驱动会自动映射到物理设备:# 示例:MindSpore中使用NPU import os os.environ['ASCEND_VISIBLE_DEVICES'] = '3,5' # 宿主机物理索引 context.set_context(device_id=0) # 逻辑索引0(对应物理卡3) 总结npu-smi info的物理索引是宿主机全局视角,容器内代码需使用逻辑索引(从0开始)。直接使用物理索引会导致设备不可见、权限错误或程序崩溃。始终通过ASCEND_VISIBLE_DEVICES设置物理设备,并在代码中按逻辑索引调用。
  • 嵌入式模型有关维度大小问题
    在使用嵌入式模型,有可能遇到以下错误dimension 512 does not match collection dimensionality 1024从错误信息来看,遇到的问题是 嵌入维度不匹配。具体来说,代码中使用的嵌入维度是 512,而模型或数据集的预期维度是 1024。这种问题通常发生在以下几种情况下:问题分析嵌入维度不一致:模型在训练时使用的是 1024 维度的嵌入(可能是预训练模型的默认设置)。但在推理或加载时,您提供的嵌入维度是 512,导致维度不匹配。可能的原因:使用了错误的嵌入层或权重文件。加载的模型与当前使用的嵌入维度不兼容。数据处理过程中,嵌入维度被错误地调整为 512。常见场景:如果您正在使用预训练模型(如 BERT、GPT 等),模型的嵌入维度通常是固定的(例如 768 或 1024),不能随意更改。如果您自定义了嵌入层,但没有正确对齐模型的输入维度。解决方案1. 检查模型的嵌入维度确认模型的嵌入层是否确实需要 1024 维度。可以通过查看模型的架构或文档来确认。如果模型要求 1024 维度,那么您需要确保所有输入数据和嵌入层都符合这一要求。2. 调整嵌入维度如果您的嵌入维度是 512,而模型需要 1024,可以尝试以下方法:扩展嵌入维度:通过线性投影将 512 维度扩展到 1024 维度。例如:import torch.nn as nn # 假设 input_embeddings 是形状为 (batch_size, seq_len, 512) 的张量 projection_layer = nn.Linear(512, 1024) expanded_embeddings = projection_layer(input_embeddings) 截断嵌入维度:如果模型允许,可以尝试截断多余的维度(虽然这种方法可能会丢失信息):# 假设 input_embeddings 是形状为 (batch_size, seq_len, 1024) 的张量 truncated_embeddings = input_embeddings[:, :, :512] 3. 检查权重文件如果您是从预训练模型加载权重,确保权重文件与当前模型的嵌入维度一致。如果权重文件是 1024 维度,但您加载时使用了 512 维度的嵌入层,会导致维度不匹配。4. 修改代码中的嵌入层如果您自定义了嵌入层,确保其输出维度与模型的要求一致。例如:embedding_layer = nn.Embedding(num_embeddings=vocab_size, embedding_dim=1024) 5. 检查数据处理流程确保在数据处理过程中,嵌入维度没有被意外修改。例如,检查是否有代码将嵌入维度从 1024 改为 512。6. 使用正确的预训练模型如果您使用的是预训练模型,确保加载的模型与当前任务的嵌入维度一致。例如,某些模型可能有不同版本,分别对应不同的嵌入维度(如 768 或 1024)。示例代码假设您正在使用 PyTorch,并且需要将嵌入维度从 512 扩展到 1024,可以参考以下代码:import torch import torch.nn as nn # 假设输入嵌入的维度是 512 input_embeddings = torch.randn(32, 128, 512) # batch_size=32, seq_len=128, embedding_dim=512 # 定义一个线性投影层,将 512 维度扩展到 1024 维度 projection_layer = nn.Linear(512, 1024) # 扩展嵌入维度 expanded_embeddings = projection_layer(input_embeddings) print(expanded_embeddings.shape) # 输出: torch.Size([32, 128, 1024]) 总结核心问题:嵌入维度不匹配(512 vs 1024)。解决思路:确认模型的嵌入维度要求。调整嵌入维度以匹配模型要求(扩展或截断)。检查权重文件和数据处理流程。使用正确的预训练模型或嵌入层。
  • [技术干货] Haar特征和HOG
    Haar特征和HOG(Histogram of Oriented Gradients)都是经典的图像特征描述方法,常用于目标检测(如人脸、行人检测),但它们在设计原理和应用场景上有显著差异。1. 相同点• 用途:均用于目标检测(如OpenCV中的人脸检测、行人检测)。• 手工特征:都属于传统计算机视觉中的手工设计特征(非深度学习特征)。• 对光照敏感:两者对光照变化均有一定鲁棒性,但HOG通常更稳定。2. 不同点特性Haar特征HOG特征数学基础基于矩形区域的像素差值(类似哈尔小波)基于图像局部区域的梯度方向统计特征计算方式计算矩形区域像素和的差值统计单元格(Cell)内梯度的方向直方图特征维度低维(单个特征为标量值)高维(多个方向的直方图组合)对几何变换的鲁棒性敏感(依赖固定矩形位置)较鲁棒(梯度方向对平移/旋转更稳定)计算效率高(积分图加速)较低(需计算梯度方向)典型应用人脸检测(Viola-Jones算法)行人检测(Dalal-Triggs算法)对遮挡的适应性差(依赖完整区域对比)较好(局部梯度统计可部分容忍遮挡)3. 核心原理对比Haar特征• 本质:通过黑白矩形模板(如边缘、线、中心特征)的像素差值描述局部结构。• 加速方法:积分图(Integral Image)快速计算矩形区域和。• 分类器:通常与Adaboost级联分类器结合(如Viola-Jones人脸检测器)。HOG特征• 本质:统计图像局部区域(Cell)内梯度方向的直方图,刻画物体轮廓。• 关键步骤:计算图像梯度(如Sobel算子)。将图像划分为Cell,统计每个Cell的梯度方向直方图。对Block内的Cell直方图归一化(提升光照鲁棒性)。• 分类器:常与SVM(支持向量机)结合(如Dalal-Triggs行人检测器)。4. 如何选择?• Haar更适合:• 实时性要求高的场景(如摄像头人脸检测)。• 目标具有明显明暗对比(如眼睛 vs 脸颊)。• HOG更适合:• 需处理形变或部分遮挡的目标(如行人检测)。• 对旋转和光照变化鲁棒性要求较高的场景。深度学习方法(如CNN、YOLO、SSD)已逐渐取代Haar和HOG,但在资源受限场景(嵌入式设备)中,传统方法仍有价值。
  • [技术干货] 级联分类器
    级联分类器的设计逻辑核心思想级联分类器(Cascade Classifier)通过多阶段逐步筛选候选区域,快速排除非目标区域(如非人脸),仅保留高概率区域进入后续更复杂的检测阶段。这种“由粗到细”的策略大幅提升了检测速度。工作流程• 阶段1:使用少量简单特征(如边缘特征)快速过滤明显不符合的区域(如纯色背景)。• 阶段2:对通过阶段1的区域,加入更多特征(如线性特征)进一步筛选。• 最终阶段:仅剩少量候选区域时,使用复杂特征组合进行精确判断。Adaboost算法的关键作用每个阶段的分类器由Adaboost算法训练生成:• 弱分类器:单个Haar特征+阈值构成,仅能区分部分样本(如区分眼睛区域和背景)。• 强分类器:多个弱分类器的加权组合,通过迭代优化权重,提升整体分类精度。• 训练目标:每轮迭代增加误分类样本的权重,迫使后续弱分类器更关注难样本。级联分类器的优势与局限优势• 高效性:早期阶段快速排除90%以上的非目标区域,减少后续计算量。• 灵活性:可根据需求调整级联层数和每层特征数,平衡速度与精度。局限• 对遮挡和姿态敏感:Haar特征依赖固定区域对比,侧脸或遮挡可能导致检测失败。• 虚警率与训练数据强相关:若负样本不足,易产生误检(如将纹理复杂物体误判为人脸)。Haar级联的典型应用场景• 实时人脸检测:如摄像头实时跟踪(依赖高效级联结构)。• 简单物体识别:如车辆、行人检测(需定制训练数据)。
  • [技术干货] CPU的矢量运算指令集 vs NPU的AI Core
    高性能CPU的矢量运算指令集 vs. NPU的AI Core1. 相同点• 并行计算能力:均通过并行化(SIMD/SIMT)加速计算,适合处理规则数据(如矩阵/向量运算)。• 支持AI任务:均可用于AI推理(如CPU的AVX-512跑轻量模型,AI Core跑复杂模型)。2. 核心差异特性CPU矢量指令集(如AVX-512、Neon)NPU的AI Core设计目标通用计算(兼顾标量、分支等)专用AI计算(聚焦神经网络)计算单元少量宽矢量单元(如512-bit SIMD)大规模专用计算阵列(如矩阵乘法单元)能效比较低(需兼顾通用性,功耗高)极高(硬件固化,无冗余逻辑)指令灵活性高(支持复杂控制流)低(固定流水线,仅支持AI算子)典型场景科学计算、多媒体处理、轻量AI推理高吞吐AI推理/训练(如Transformer)内存访问依赖通用缓存层次(延迟敏感)专用高带宽内存(HBM)优化数据流3. 本质区别• CPU矢量指令集:• 优势:灵活性高,适合混合任务(如游戏物理引擎、视频编码)。• 瓶颈:并行度有限,能效比低,AI性能受限于内存带宽和通用架构。• AI Core:• 优势:为AI定制的计算架构(如脉动阵列、稀疏计算),算力密度和能效比碾压CPU。• 瓶颈:仅能处理特定AI算子(如Conv/GEMM),无法执行通用代码。4. 典型案例• CPU矢量指令:Intel AVX-512跑ResNet-50(性能≈10 TOPS,功耗>100W)。• AI Core:华为昇腾910的AI Core(性能≈256 TOPS,功耗≈60W)。总结:CPU矢量指令是“多功能瑞士军刀”,AI Core是“AI专用电锯”——后者在特定场景下效率碾压前者,但通用性几乎为零。
  • [技术干货] CPU的矢量运算指令集 vs NPU的AI Core
    高性能CPU的矢量运算指令集 vs. NPU的AI Core1. 相同点• 并行计算能力:均通过并行化(SIMD/SIMT)加速计算,适合处理规则数据(如矩阵/向量运算)。• 支持AI任务:均可用于AI推理(如CPU的AVX-512跑轻量模型,AI Core跑复杂模型)。2. 核心差异特性CPU矢量指令集(如AVX-512、Neon)NPU的AI Core设计目标通用计算(兼顾标量、分支等)专用AI计算(聚焦神经网络)计算单元少量宽矢量单元(如512-bit SIMD)大规模专用计算阵列(如矩阵乘法单元)能效比较低(需兼顾通用性,功耗高)极高(硬件固化,无冗余逻辑)指令灵活性高(支持复杂控制流)低(固定流水线,仅支持AI算子)典型场景科学计算、多媒体处理、轻量AI推理高吞吐AI推理/训练(如Transformer)内存访问依赖通用缓存层次(延迟敏感)专用高带宽内存(HBM)优化数据流3. 本质区别• CPU矢量指令集:• 优势:灵活性高,适合混合任务(如游戏物理引擎、视频编码)。• 瓶颈:并行度有限,能效比低,AI性能受限于内存带宽和通用架构。• AI Core:• 优势:为AI定制的计算架构(如脉动阵列、稀疏计算),算力密度和能效比碾压CPU。• 瓶颈:仅能处理特定AI算子(如Conv/GEMM),无法执行通用代码。4. 典型案例• CPU矢量指令:Intel AVX-512跑ResNet-50(性能≈10 TOPS,功耗>100W)。• AI Core:华为昇腾910的AI Core(性能≈256 TOPS,功耗≈60W)。总结:CPU矢量指令是“多功能瑞士军刀”,AI Core是“AI专用电锯”——后者在特定场景下效率碾压前者,但通用性几乎为零。
  • [技术干货] NPU的AI Core和HBM
    AI Core(人工智能计算核心)• 功能:NPU的核心计算单元,专门优化神经网络运算(如矩阵乘法、卷积)。• 特点:◦ 高并行计算能力,支持低精度(INT8/FP16)加速。◦ 能效比高,适合移动端和边缘设备的AI推理。• 应用:图像处理、语音识别、自动驾驶等实时AI任务。HBM(高带宽存储器)• 功能:为NPU提供超高带宽的内存,解决传统内存的“带宽墙”问题。• 特点:◦ 3D堆叠技术,带宽可达TB/s级(远超GDDR/DDR)。◦ 低延迟、低功耗,与AI Core紧密集成。• 应用:大模型推理、高性能计算(HPC)等需要高速数据吞吐的场景。AI Core负责计算,HBM负责高速数据供给,二者结合显著提升NPU的AI性能。典型用例:手机NPU(如华为麒麟)搭配HBM实现高效AI处理;云端AI芯片(如NVIDIA H100)依赖HBM加速大模型训练。总之,AI Core是NPU的“大脑”,HBM是“超快记忆”,共同实现高效AI计算。
  • Qwen2.5-Omni 多模态部署实战体验指南
    Qwen2.5-Omni正式发布了!这是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出2025.03.26: QWen发布了 Qwen2.5-Omni这个模型特别好!但是占用显存太多,实测最少要上32GB的GPU才能运行,官方示例已经支持多卡GPU推理接下来跟着我实战部署吧:首先准备一台V100 GPU服务器:本次使用Ubuntu22.04 nvidia-smi +---------------------------------------------------------------------------------------+| NVIDIA-SMI 535.161.08 Driver Version: 535.161.08 CUDA Version: 12.2 ||-----------------------------------------+----------------------+----------------------+| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. || | | MIG M. ||=========================================+======================+======================|| 0 Tesla V100-PCIE-32GB On | 00000000:00:0D.0 Off | 0 || N/A 37C P0 28W / 250W | 0MiB / 32768MiB | 0% Default || | | N/A |+-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+| Processes: || GPU GI CI PID Type Process name GPU Memory || ID ID Usage ||=======================================================================================|| No running processes found |+---------------------------------------------------------------------------------------+首先安装docker,然后安装nvidia-docker2也可以参考官方教程:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html# 添加 NVIDIA 包仓库distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list# 更新包列表并安装 NVIDIA Container Toolkitsudo apt updatesudo apt install -y nvidia-docker2# 重启 Docker 服务sudo systemctl restart docker然后使用docker先拉取镜像:docker pull qwenllm/qwen-omni:2.5-cu121 使用docker images查看镜像大小:docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEqwenllm/qwen-omni 2.5-cu121 5dcb9c8d9ff6 9 hours ago 23.7GB镜像占用的空间还是挺大的。需要耗费较长时间。使用下面命令运行:docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash注意:如果没有装nvidia-docker2会提示下面信息:docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]Run 'docker run --help' for more informationdocker部署后,会进入默认目录/data/shared/Qwen首先我们要使用hf-mirror镜像源方式:1. 安装依赖pip install -U huggingface_hub2. 设置环境变量Linuxexport HF_ENDPOINT=https://hf-mirror.com默认目录下有web_demo.py文件我们修改一下配置:1.修改为0.0.0.0parser.add_argument('--server-name', type=str, default='0.0.0.0', help='Demo server name.')2.修改分享链接为True parser.add_argument('--share', action='store_true', default=True, help='Create a publicly shareable link for the interface.')3.修改精度为torch.float16 这里V100不支持torch.bfloat16,就算使用,实际上没什么作用(此处不会报错) # Check if flash-attn2 flag is enabled and load model accordingly if args.flash_attn2: model = Qwen2_5OmniModel.from_pretrained(args.checkpoint_path, torch_dtype=torch.float16, attn_implementation='flash_attention_2', device_map=device_map) else: model = Qwen2_5OmniModel.from_pretrained(args.checkpoint_path, torch_dtype=torch.float16, device_map=device_map)4.导入模块torchimport torch然后使用命令启动:python web_demo.py然后发现有以下信息:Could not create share link. Missing file: /usr/local/lib/python3.10/dist-packages/gradio/frpc_linux_amd64_v0.3. Please check your internet connection. This can happen if your antivirus software blocks the download of this file. You can install manually by following these steps: 1. Download this file: https://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd642. Rename the downloaded file to: frpc_linux_amd64_v0.33. Move the file to this location: /usr/local/lib/python3.10/dist-packages/gradio我们按照步骤完成即可再次运行python web_demo.py我们再浏览器输入链接就可以体验Qwen2.5-OmniGPU占用情况:还挺有趣的!!!选择Offine下面可以提交视频,音频,还有图片:我体验官方项目中的视频,然后会出现下面报错:torch.OutOfMemoryError: CUDA out of memory.说明显存还是太小了,估计要A100 GPU/多卡推理我们提交Qwen2.5-Omni的图标,问问她:发送成功:后台日志:GPU占用情况生成的结果:点击播放即可。感觉Qwen2.5-Omni真强大!!!
  • DeepSeek-V3-0324 发布
    目前大部分厂商还没有推进新模型,不过在官网可以试用:在网页对话中不开启深度思考(R1),就可以体验DeepSeek-V3-0324发现回复多了一些表情符号(emoji)。DeepSeek-V3 模型更新,各项能力全面进阶DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用方式保持不变。如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。模型能力提升一览​推理任务表现提高​新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。 前端开发能力增强​在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。​中文写作升级在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。中文搜索能力优化​新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。此外,新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。模型开源​DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。V3-0324 模型权重下载请参考:Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-V3-0324与 DeepSeek-R1 保持一致,此次我们的开源仓库(包括模型权重)统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
  • 新功能上线 DeepSeek-R1/V3支持按Token计费,您可前往贵阳一:模型推理-预置服务开通商用服务。
    新功能上线DeepSeek-R1/V3支持按Token计费,您可前往贵阳一:模型推理-预置服务开通商用服务。华为云已经上线商用服务。现在要去领取新的免费额度了点击免费服务,然后领取:商用服务需要开通:点击开通即可。注意:免费服务:仅适合用于体验模型,且受严格的速率限制。平台可能会不定时调整其适用模型、免费额度、有效期等内容。商用服务:将为您提供商用级别的推理API服务,开放后您可以获取付费API服务。实测免费服务速度一般。
  • [技术干货] 零成本薅羊毛!手把手教你在华为云免费云主机打造AI知识库,老板直呼要加薪!
    "同事小李上周被老板骂了,就因为他花了3天整理报表数据。而我喝着咖啡刷着剧,5分钟就生成精准报表——别误会,我不是黑客,只是把公司数据库调教成了会说话的AI管家!"一、为什么要跪着看这篇教程?在这个人均ChatGPT的时代,你还靠人肉查数据?今天要搞的这套"智能知识库系统"有多逆天:老板说"我要上周华东区热销单品",直接生成SQL报表运营妹子问"用户复购率top3品类",秒出可视化图表新人查资料不用翻wiki,直接对话调取知识库重点来了!整套方案零!成!本!华为云免费主机 + 200万token大模型 + 开箱即用的神器AntSK = 打工人の摸鱼神器二、华为云的正确薅法(手把手教学)Step1:领取你的免费赛博打工人浏览器输入:cid:link_1进入我的云主机黑科技说明书:华为云开发者空间就像个24小时待命的数字员工宿舍,我们即将在这里部署:学霸级AI大脑:DeepSeek-R1(32B参数大佬)知识库管家:AntSK(微软Semantic Kernel加持)三、保姆级部署指南(含避坑大全)▍Stage1:给你的云主机装外挂在终端输入这段魔法咒语:bash复制sudo apt-get install git -y # 别问,问就是装个时光机避坑TIP:如果遇到"Permission denied",请深情朗诵三遍:"sudo大法好,权限保平安"▍Stage2:召唤AntSK神器复制粘贴这段代码,你将获得价值百万的开源项目:bash复制git clone https://github.com/AIDotNet/AntSK.git接下来我们需要安装一下dotnet8环境,此处省略。sudo dotnet cleansudo dotnet buildsudo dotnet publish "AntSK.csproj"cd /antsk/AntSK/src/AntSK/bin/Release/net8.0/publish/sudo AntSK.dll安装好以后,我们启动项目然后我们访问127.0.0.1:5000/user/login然后我们需要申请一下ModelArts Studio的模型 https://console.huaweicloud.com/modelarts/?region=cn-east-4&locale=zh-cn#/model-studio/square 进入ModelArts Studio单个模型可以免费使用200W Token这里我选择的是 DeepSeek-R1-Distill-Qwen-32B-4K选择好以后,需要创建一个Api Key然后我们就可以直接使用这个模型进入模型配置页面我们还需要一个向量模型,这里使用硅基流动的免费的bge-m3接下来我们可以创建应用测试看看我们可以看到,对话已经通了,接下来我们创建知识库进行测试我们导入一个简单的文本进行测试我们可以看到。向量已经处理完成我们重新创建一个知识库然后我们测试看看效果到此我们就通过华为云开发者空间的免费云主机和 Model Arts 完成了一个知识库搭建 项目亮点剧透:这个基于.NET8的黑科技,能轻松实现:智能客服秒回"亲"企业级知识图谱甚至帮你写情书(误)四、模型界的复仇者联盟▍ModelArts Studio:你的AI军火库猛戳这个神秘链接:https://console.huaweicloud.com/modelarts/?region=cn-east-4选模型就像选男友:要聪明:DeepSeek-R1(32B参数智商担当)要持家:免费200万token(足够聊到天荒地老)要贴心:bge-m3向量模型(中文理解小能手)五、让数据库开口说话の奥义▍知识库调教指南:上传公司文档时,建议先喂点"零食":产品手册.pdf(主食)销售数据.xlsx(甜点)甚至老板的语音备忘录.mp3(黑暗料理)向量化处理时,可以泡杯咖啡灵魂拷问测试:尝试输入:"去年Q4华南区手机配件毛利率是多少?"当系统自动生成SQL时——"动了动了!它自己会写JOIN语句了!"六、打工人の逆袭时刻现在你拥有:✅ 智能问答系统127.0.0.1:5000✅ 自动报表生成器✅ 24小时AI客服升职加薪话术:"王总,我做了个能自动分析销售数据的人工智能系统,预计每年可节省2000小时人工..." 终极秘籍:遇到任何问题,在AntSK的GitHub页面:https://github.com/AIDotNet/AntSK提issue时加上"跪求大佬",触发开发者BUFF加成结语:当你完成部署的那一刻,无数个加班的夜晚将离你远去。P.S. 据说点赞收藏的小伙伴,下周都会收到涨薪通知单~