-
多模态融合(Multimodal Fusion)是指在一个系统中整合来自多种模态(数据源、信息形式)的数据或特征,进而提供更丰富、更准确的理解和决策支持。每种模态提供的数据通常都有不同的特性和表现方式,而多模态融合通过综合各模态的信息,能够提升系统的整体性能,特别是在面对复杂任务时。模态的定义“模态”指的是信息的不同类型或来源。在多模态学习中,常见的模态包括:视觉模态(Vision Modal):例如,图像、视频等视觉数据。听觉模态(Audio Modal):例如,语音、音乐、环境声音等。文本模态(Text Modal):例如,文字、语句、文档等。传感器数据模态(Sensor Modal):例如,加速度计、温度传感器、GPS等。生理信号模态(Physiological Modal):例如,心电图(ECG)、脑电图(EEG)等。多模态融合的工作原理多模态融合的核心思想是:将来自不同模态的数据进行整合,结合每种模态的信息优势,使系统能够做出更为准确和全面的判断。在实际操作中,多模态融合可以分为以下几个步骤:数据获取: 各种模态的数据从不同的传感器、设备或数据源获取。例如,在自动驾驶系统中,视觉模态可能来自摄像头,听觉模态可能来自麦克风,传感器数据模态可能来自雷达或激光雷达。数据预处理: 不同模态的数据在处理时可能会有不同的格式和结构,因此需要对各个模态进行预处理,以确保其可以有效结合。比如,图像数据可能需要标准化,文本数据可能需要分词,音频数据可能需要转换为频谱图。特征提取: 对每个模态的数据进行特征提取。不同的模态有不同的特征提取方法。例如,图像数据常用卷积神经网络(CNN)提取特征,文本数据常用自然语言处理(NLP)技术,音频数据可能使用Mel频率倒谱系数(MFCC)等。特征融合: 将不同模态的特征进行融合。融合方式可以是:早期融合(Early Fusion):在数据层面直接将不同模态的数据合并,形成一个多维输入向模型进行训练。中期融合(Mid-level Fusion):在特征层面将各模态的特征进行融合。各模态的数据经过独立处理后,将提取到的特征进行结合。后期融合(Late Fusion):各模态的数据分别输入到不同的模型中,得到各自的预测结果,然后将这些预测结果结合起来进行最终决策。决策融合: 最终,基于融合后的特征或结果,进行决策。例如,在多模态情感分析中,可能会结合文本、语音、面部表情等多种模态的信息,以便更准确地分析一个人的情绪。多模态融合的优势信息互补: 不同模态的数据可以互为补充,弥补单一模态的不足。例如,视觉模态可能无法很好地处理语音中的情感信息,而音频模态则能提供更丰富的情感细节。通过融合,系统可以更全面地理解任务。提高准确性和鲁棒性: 多模态融合通常可以提高模型的准确性。在面对某些噪声或缺失数据时,其他模态的补充可以弥补这些缺陷,使得系统更为鲁棒。例如,在自动驾驶中,若摄像头图像质量较差,雷达或激光雷达可以提供额外的信息。增强理解与推理能力: 多模态融合使得系统能够进行更复杂的推理和理解。例如,图像和文本结合可以用于自动生成图像描述,图像和语音结合可以用于视频理解。更接近人类认知方式: 人类本身就是一个多模态的信息处理系统,我们通过视觉、听觉、触觉等多种感官来获取和理解世界。多模态融合使得计算机系统的认知方式更接近人类的思维模式。应用领域自动驾驶:在自动驾驶系统中,视觉、雷达、激光雷达等多种传感器提供的信息被融合,以提高对环境的理解和决策能力。医疗影像:通过融合CT、MRI、超声等多模态医学影像数据,可以更准确地进行疾病诊断和预测。情感分析:在情感分析中,融合文本、语音、面部表情等模态的信息,有助于更准确地识别一个人的情绪。智能助手:智能语音助手(如Siri、Alexa等)通过融合语音输入、文本、环境信息等多模态数据,提高其交互的自然度和准确性。机器人:在机器人系统中,视觉、触觉、听觉等感知系统的多模态融合,使机器人能够更智能地与环境进行交互。总结多模态融合是通过结合不同类型的输入数据来提供更全面、更准确的信息。它在解决复杂任务中有着显著的优势,能够提升系统的理解能力、决策能力和鲁棒性,广泛应用于自动驾驶、医疗诊断、情感分析等多个领域。
-
大家对华为云 x DeepSeek:AI驱动云上应用创新怎么看?【话题讨论】
-
模型蒸馏(Model Distillation)是一种知识迁移技术,通常用于深度学习模型的压缩和加速。简单来说,蒸馏的核心思想是将一个复杂且计算量大的“教师模型”(Teacher Model)中的知识,传递到一个较小且计算量较低的“学生模型”(Student Model)中,从而使学生模型能够在保持较好性能的同时,减少计算和存储开销。工作原理教师模型训练: 首先,你需要训练一个大型且高性能的教师模型,这个模型的参数非常庞大,可以在特定任务上达到很好的效果。例如,训练一个大型的卷积神经网络(CNN)用于图像分类。学生模型设计: 学生模型通常是一个结构较为简单、参数较少的模型,它可能不具备教师模型那样的复杂性和强大的表达能力。知识传递: 在蒸馏过程中,学生模型通过“模仿”教师模型的输出进行训练。这里的“输出”不仅仅是预测标签,还包括教师模型的软标签(soft targets)。软标签是指教师模型对每个类别的预测概率分布,而不是硬标签(hard targets)即单一的类别标签。教师模型的软标签包含了更多的细节信息,如类别间的相似性,而这些信息对于学生模型学习有很大的帮助。学生模型通过最小化与教师模型输出的差异来进行训练。蒸馏损失函数: 通常,蒸馏过程的损失函数不仅考虑学生模型的预测和真实标签之间的差异,还包含了教师模型和学生模型之间的差异。例如,损失函数可以是以下几部分的组合:软标签与学生模型输出的差异(如交叉熵损失)。学生模型与真实标签的差异(传统的监督损失)。通过这种方式,学生模型可以获得教师模型的“知识”,同时在效率上做出折衷。蒸馏的优势模型压缩: 通过蒸馏,可以将一个大的教师模型压缩为一个小的学生模型,这对于部署到资源受限的设备(如手机、嵌入式设备等)非常有用。加速推理: 由于学生模型通常较小,推理速度较快,这使得它能够在实时应用中表现得更好。提高学生模型的泛化能力: 学生模型可以通过模仿教师模型在更复杂数据上的表现,增强其泛化能力和鲁棒性。降低过拟合风险: 在训练学生模型时,由于其目标不仅是学习训练数据的标签,还包括教师模型的“行为”,因此可以减少过拟合,特别是在数据有限的情况下。蒸馏的常见应用模型压缩与加速:应用在需要高效推理和存储的场景,如移动设备、物联网设备等。迁移学习:通过教师模型的知识,帮助学生模型快速适应新的任务或领域。增强模型鲁棒性:使得学生模型能够从教师模型中学习到更多的知识,提升其对不同输入数据的适应性。总结模型蒸馏的核心思想是通过“教师”模型将其知识传递给更小、更高效的“学生”模型。这使得在不显著牺牲性能的情况下,可以获得更加轻量级和高效的模型,从而满足实际应用中的需求。
-
华为云可以搭建Deepseek吗?
-
1 案例介绍1.1 Open WebUI本次采用Open WebUI作为对话前端页面。Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离线运行。它支持各种 LLM 运行器,如 Ollama 和 OpenAI 兼容的 API,并内置了 RAG 推理引擎,使其成为强大的 AI 部署解决方案。优点:完全开源,无需付费订阅,适合个人开发者和小型团队,拥有类 ChatGPT 界面。项目地址:GitHub - open-webui1.2 Ollama本次采用Ollama来运行各种热门大模型。Ollama能快速启动和部署热门大模型。如: DeepSeek-R1、Gemma 2 、Qwen2.5。优点:方便,本地化运行,完全离线,支持 macOS、Linux 和 Windows,无需复杂配置,一键安装即可使用。项目地址:GitHub - ollama1.3 鲲鹏服务器本次采用华为自主研发的鲲鹏920处理器服务器,由于完全是自主研发的芯片,性价比很高。鲲鹏CPU架构基于精简指令集(RISC)设计,通过减少指令类型和优化硬件解码流程,显著提升了执行效率与能效表现。其指令集采用固定长度编码,简化了流水线控制逻辑,使芯片在相同制程下能够以更低功耗实现高并发计算任务,尤其在云计算、边缘计算等场景中展现出优势。相较于采用复杂指令集(CISC)的x86架构,鲲鹏CPU通过摒弃冗余指令、降低动态功耗波动,在能效比上提升约20%-40%,例如在大规模数据中心部署时可降低30%以上的电力与散热成本。帮助文档:鲲鹏CPU架构1.4 HCE OS本次服务器安装的操作系统是华为云的HCE 操作系统。Huawei Cloud EulerOS(简称HCE)是基于openEuler构建的云上操作系统。HCE打造云原生、高性能、高安全、易迁移等能力,加速用户业务上云,提升用户的应用创新空间,可替代CentOS、EulerOS等公共镜像。帮助文档:Huawei Cloud EulerOS2 案例时间本案例总时长预计60分钟。3 案例流程说明:使用华为云CloudShell连接目标服务器,完成Ollama框架的安装配置;配置并验证DeepSeek大语言模型的运行状态;通过CloudShell部署Open WebUI交互界面;在Open WebUI界面中检查能否正确呈现Ollama驱动的DeepSeek模型响应内容;实现基于浏览器(Edge)访问的对话功能,支持用户与DeepSeek大模型进行对话交互。4 资源的准备与购买4.1 资源总览本案例预计花费总计10.002元,体验完成后请及时释放资源,避免产生多余的费用。需要使用的云资源:区域选择华北-北京四资源名称规格单价(元/小时)时长(分钟)弹性云服务器ECS鲲鹏通用计算增强型 | kc2.6xlarge.2 | 24vCPUs | 48GiB3.3460弹性公网IP全动态BGP | 独享 | 按带宽计费 | 30Mbit/s6.56560云硬盘EVS系统盘: 通用型SSD, 100GiB0.09760购买同配置的链接:cid:link_6pricing/calculator.html?shareListId=5a8b9de0f6a911efb4fe1b4fd71886e84.2 购买鲲鹏服务器4.2.1使用购买链接方式复制购买链接cid:link_6pricing/calculator.html?shareListId=5a8b9de0f6a911efb4fe1b4fd71886e8粘贴到浏览器,点击查看详情:首先点击更多,然后点击去购买:然后只需配置网络、云服务器管理即可:配置网络:配置密码即可:4.2.2 控制台购买方式下面是在控制台选择购买的方式:点击华为云官网:华为云,然后进入控制台:点击计算,然后选择弹性云服务器ECS。点击购买弹性云服务器:本次购买的是基于华为云ECS(鲲鹏实例KC2)鲲鹏通用计算增强型 | kc2.6xlarge.2 | 24vCPUs | 48GiB 部分重要配置如下:返回查看服务器,已经处于运行状态:4.3 登录鲲鹏服务器点击其远程登录。这里简单介绍一下:CloudShell华为云CloudShell是一款用于管理与运维云资源的网页版Shell工具,通过CloudShell可以完成登录弹性云服务器、连接集群等操作。CloudShell目前支持Windows和Linux系统。帮助文档:通过CloudShell登录Linux ECS_弹性云服务器 ECS_华为云点击立即登录,输入密码,后点击连接:说明服务器已经登录成功。5 部署操作5.1 Ollama 部署首先点击Ollama官网:https://ollama.com,点击Download选择Linux操作系统:复制上面的脚本命令到服务器终端执行:curl -fsSL https://ollama.com/install.sh | shOllama正在安装中。Ollama安装完成:我们可以忽视这个警告,本次仅使用CPU 920通过Ollama大模型运行,没有使用GPU,由于使用CPU运行,可能会速度慢一些,所以ollama给出一个小警告。使用ollama -v 验证是否安装成功:ollama -v 说明Ollama 安装成功,本次使用的版本为0.5.11。本次我们选择运行最火爆的deepseek系列的大模型。首先我们点击Ollama官网中的Models按钮:最火爆的大模型就是deepseek,已经默认排列在第一个:本次部署基于Qwen-2.5蒸馏得到的DeepSeek-R1-Distill-Qwen-7B大模型:地址为:https://ollama.com/library/deepseek-r1:7b(deepseek-r1:7b)如果想部署其他大模型,可以通过搜索来找到其他大模型,如原版Qwen-2.5地址为:https://ollama.com/library/qwen2.5:7b(qwen2.5:7b)可以直接复制其命令:ollama run deepseek-r1:7b 到终端执行:ollama run deepseek-r1:7b也可以先拉取大模型再来运行大模型,本次使用ollama pull deepseek-r1:7b 拉取大模型:ollama pull deepseek-r1:7b正在拉取中(如果遇到网络卡顿,可以反复重新执行拉取)。下面是deepseek-r1:7b大模型拉取完成:使用 ollama list 验证大模型是否成功下载:ollama list说明大模型下载成功。通过使用 ollama run deepseek-r1:7b 来运行大模型:ollama run deepseek-r1:7b可以随便问几个问题,查看大模型回答结果:再问一个 9.8和9.11谁大的问题:至此说明Ollama部署成功,但是使用终端命令行来进行对话,对用户不友好,也不安全。下面使用Open WebUI来部署类chatgpt页面。5.2 Open WebUI 部署首先打开 ⏱️ Quick Start : https://docs.openwebui.com/getting-started/quick-start,发现有好几种部署方式,但是个人认为通过docker部署比较方便,而且不会对服务器环境造成影响。下面先安装docker,使用 yum install docker -y命令安装:yum install docker -y使用 docker -v 验证docker 是否安装成功:docker -v说明docker 安装成功:首先第一步拉取Open WebUI 镜像,使用如下命令:docker pull ghcr.io/open-webui/open-webui:main正在拉取中。下面是镜像拉取完毕:我们使用 docker images 命令查看下载的镜像:docker images第二步就可以开始启动容器:docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 -e ENABLE_OPENAI_API=false --name open-webui ghcr.io/open-webui/open-webui:main参数说明:docker runDocker 的核心命令,用于创建并启动一个新容器。-d(Detached 模式)让容器在后台运行,不占用当前终端窗口。--network=host容器直接使用宿主机的网络堆栈,与宿主机共享 IP 地址和端口。这意味着容器内的服务可以通过 127.0.0.1 直接访问宿主机本地的服务(如 Ollama),无需端口映射。-v open-webui:/app/backend/data将 Docker 管理的名为 open-webui 的持久化存储卷挂载到容器内的 /app/backend/data 目录,确保应用数据(如用户配置、缓存等)在容器重启后不丢失。-e OLLAMA_BASE_URL=http://127.0.0.1:11434设置环境变量,指定 Open WebUI 连接的 Ollama 服务的地址。指向宿主机本地(127.0.0.1)的 11434 端口。-e ENABLE_OPENAI_API=false允许使用 OpenAI API(值为True),否则禁止使用OpenAI API(false)。这里需要禁用 OpenAI 服务调用。国内无法访问 OpenAI 的网络环境,必须将此值设为 false,否则应用在登录阶段会因尝试连接 OpenAI 接口超时而卡顿,导致界面长时间无响应。具体描述:ENABLE_OPENAI_API : https://docs.openwebui.com/getting-started/env-configuration#enable_openai_api--name open-webui为容器分配一个易识别的名称 open-webui,便于后续通过 docker start/stop/open-webui 等命令管理容器。ghcr.io/open-webui/open-webui:main指定使用的容器镜像来源:GitHub Container Registry(ghcr.io)中 open-webui 项目的 main 标签镜像,通常代表最新开发版或主分支构建版本。环境参数文档:🌍 https://docs.openwebui.com/getting-started/env-configuration容器运行成功:使用 docker ps 查看容器的运行状态:docker ps读取STATUS字段说明容器正在启动中,稍等一会,Open WebUI的容器启动成功:本次服务器的弹性公网的ip的为:123.249.24.108基于docker安装的Open WebUI的端口为8080,因此需要保证服务器的安全组的8080端口是否处于打开状态:打开Open WebUI网页链接:123.249.24.108:8080点击开始使用:设置名称为admin(名称可以随意)电子邮箱和密码,由自己设计:点击创建管理员账号,会进入首页:刚开始进入会显示更新描述,我们直接点击确认,开始使用:由于我们已经提前在docker的启动参数中指定Ollama的地址,所以Open WebUI直接连接上了Ollama,我们随便问几个问题:问题回答的不错。至此,所有的部署已经完毕!当然我们也可以部署其他大模型:如Qwen2.5通过管理员面板,我们也可以下载模型:已经开始下载qwen2.5:7b的模型:下载完成:也是随便问几个问题:6 小结通过以上的教程,完成了大模型对话网页的部署,能快速部署,体验大模型的超强能力!但是由于使用CPU推理,对于参数量比较大的模型,可能运行速度较慢,这个时候需要使用GPU来运行大模型。 我正在参加【案例共创】第2期 构建开发场景最佳实践/体验评测,创作案例文章cid:link_1
-
作为全网夸的AI,DeepSeek已经把打工人的脑电波,编译成0误差代码,不需要有复杂的提示词便能自动分析,给出你想要的内容。很多新手小白在真正上手DeepSeek时,还是会出现令人头痛的问题:DeepSeek是什么?在哪儿能用?能有什么核心优势?为了帮助大家快速了解手DeepSeek,以及掌握DeepSeek的使用技巧。华为云携手华为技术专家推出第一期系列课程:《昇腾云xDeepSeek 深入浅出白话解读》通过学习本课程,学员将掌握DeepSeek的核心技术优势、昇腾云的部署方案及实际应用技巧,能够独立完成DeepSeek在昇腾云上的部署与优化,提升在人工智能领域的实践能力。课程免费!扫描下方海报二维码观看!
-
Top-5错误率是图像分类任务中常用的一个性能指标(很多论文里都会使用这个评价指标),用于衡量模型在预测时的准确性和鲁棒性。它的定义如下:假设一个图像分类模型需要从一个固定的类别集合中识别出输入图像的正确类别。在进行预测时,模型会输出每个类别的置信度(通常是概率值)。Top-5错误率是指模型输出的置信度最高的5个类别中,不包含正确类别的情况所占的比例。换句话说,如果模型预测的置信度最高的5个类别中包含正确类别,则认为该预测是正确的;否则,认为预测是错误的。Top-5错误率就是所有错误预测占总预测的比例。为什么使用Top-5错误率?反映模型的鲁棒性:在实际应用中,图像可能包含多个相似的类别,或者图像质量不佳导致难以区分。Top-5错误率允许模型有一定的“容错空间”,能够更好地反映模型在复杂情况下的鲁棒性。与Top-1错误率的对比:Top-1错误率只考虑置信度最高的类别是否正确,而Top-5错误率则更宽松,能够更全面地评估模型的性能。通常,Top-5错误率会比Top-1错误率低,因为它允许模型有更多机会“猜对”正确答案。实际应用的合理性:在一些应用场景中,用户可能更关心模型是否能够给出“合理”的候选答案,而不仅仅是单一的预测结果。例如,在搜索引擎中,用户可能对前几个搜索结果都感兴趣,而不仅仅是第一个结果。举例说明假设有一个图像分类任务,类别包括“猫”、“狗”、“鸟”、“汽车”和“飞机”。对于一张“猫”的图片,模型的预测结果按置信度排序为:狗(0.4)猫(0.3)鸟(0.2)汽车(0.08)飞机(0.02)在这种情况下,虽然“猫”不是置信度最高的类别,但它在前5个预测结果中,因此该预测在Top-5错误率的评估中被认为是正确的。总之,Top-5错误率是一个比Top-1错误率更宽松的评估指标,它主要用于衡量模型在复杂情况下的鲁棒性和实用性。它广泛应用于图像分类任务中,尤其是在大规模数据集(如ImageNet)的评估中。
-
当全球AI竞赛进入白热化阶段,华为昇腾再次交出一份硬核答卷!就在近日,华为宣布其AI计算平台昇腾成功适配支持开源项目Open R1,并实现DeepSeek V3模型的高效预训练与微调。这一进展不仅标志着国产算力生态的又一次突破,更让开发者看到了“中国技术”在AI大模型领域的无限可能。一、昇腾+MindSpeed:国产算力“黄金搭档”再升级华为此次公布的MindSpeed框架,已全面支持DeepSeek V3模型的预训练与微调任务。从官方披露的并行配置参数来看,昇腾通过优化的分布式训练方案,显著提升了模型训练效率,尤其是在千亿级参数场景下,昇腾集群的算力调度和内存管理能力经受住了考验。据介绍,MindSpeed 现已支持 DeepSeek V3 模型预训练与微调。所使用的并行配置与模型参数如下:划重点:知识蒸馏技术落地:华为基于昇腾完成知识蒸馏流程验证,成功让轻量化的Qwen模型在特定领域评分大幅提升。这意味着,开发者未来可基于昇腾平台快速训练出“小而强”的AI模型,大幅降低算力成本。开源生态兼容性突破:昇腾适配支持vLLM等主流AI工具库,打通了Open R1-Zero的GRPO流程(关键训练步骤)。开发者无需重复造轮子,即可利用昇腾硬件加速训练数据生成。二、Open R1项目为何引爆开发者圈?作为Hugging Face官方力推的开源项目,Open R1旨在复现DeepSeek-R1模型的完整训练流程,目前已在GitHub上斩获71K+星标,堪称AI界的“顶流”。开源复现的意义:DeepSeek-R1作为国产大模型的代表,其训练细节长期被视为“黑箱”。Open R1项目通过开源协作,填补了技术流程的空白,让全球开发者得以透明化探索模型优化路径。华为昇腾的适配价值:此次昇腾的深度适配,意味着国产算力平台与国际主流开源框架的兼容性再进一步。开发者既能享受昇腾的算力红利,又能无缝接入Hugging Face生态,实现“鱼与熊掌兼得”。三、技术自主+开源协作:中国AI的“两条腿”战略当前,国际芯片博弈加剧,算力自主权成为AI发展的核心命题。华为昇腾的突破,不仅在于硬件性能的追赶,更在于其构建开放生态的远见:打破“卡脖子”焦虑:昇腾适配开源项目,本质上是将国产硬件融入全球AI创新链条,避免技术孤立。开发者生态是关键:华为通过支持知识蒸馏、优化工具链,降低了AI开发门槛。中小团队甚至个人开发者,也能基于昇腾平台探索大模型应用,加速行业创新落地。四、行业影响:一场AI生产力的“普惠革命”华为此次技术进展,释放了三大信号:国产算力可用性验证:昇腾已具备支撑复杂AI训练任务的能力,为金融、医疗、科研等领域提供了“备胎”选择。轻量化模型成趋势:知识蒸馏技术的成熟,将推动AI从“拼参数”转向“拼效率”,边缘计算、端侧智能迎来新机遇。开源社区力量崛起:中国企业与全球开发者协同创新,正在改写AI技术的话语权格局。华为昇腾与Open R1的“双向奔赴”,不仅是技术的胜利,更是生态的胜利。当国产算力与开源精神深度结合,中国AI的“星辰大海”或许就在眼前。对于开发者而言,这无疑是一个最好的时代——技术无国界,创新无止境,而你,准备好搭上这班快车了吗?文末互动👉 你怎么看国产算力与开源生态的结合?欢迎在评论区分享你的观点!
-
025年春节前夕,中国AI领域迎来重磅消息——中国信通院主导的算力互联公共服务平台正式上线“DeepSeek服务站点大全”!这一功能不仅为国内开发者提供了调用算力的统一入口,更集结了全球22家头部云服务商,让国产大模型DeepSeek成为AI开发者的“新宠”。中国AI技术能否借此实现“弯道超车”?一文揭秘!一、开发者福音:算力调用从此“一站直达”过去,AI开发者常面临算力分散、资源不均衡、调用门槛高的痛点。而此次上线的“DeepSeek服务站点”功能,通过算力互联公共服务平台,将华为云、微软Azure、亚马逊AWS、英伟达等22家全球云服务商的DeepSeek模型服务能力集中呈现,开发者无需跨平台搜索,即可一键触达所需算力资源。亮点功能:统一入口:覆盖训练、推理、定制化开发全流程需求;成本优化:依托国产模型DeepSeek的计算资源优化,调用成本更低;灵活适配:支持私有化部署与专有数据训练,满足企业个性化需求。二、DeepSeek为何成为“顶流”?硬核技术+性能登顶DeepSeek系列模型近期表现堪称“现象级”:榜单屠榜:在Lmarena模型竞技榜中,DeepSeek-R1与GPT-4o并列全球第三,前十名中国模型独占四席;多场景覆盖:涵盖通用语言理解(R1、V3系列)、代码生成(Coder系列)、数学推理(Math系列)等,适配生物医药、智能制造、AIGC等前沿领域;性能比肩国际:通过国产推理引擎优化,其推理效率与高端GPU持平,成本却降低30%以上。三、产业落地加速:从“算力超市”到“锡产锡用”此次升级不仅是技术突破,更推动AI算力与地方经济深度融合。例如:无锡高新区:云工场科技打造的“算力超市”基于DeepSeek模型,实现本地化“锡产锡用”,助力中小企业快速部署AI应用;超算互联网:DeepSeek系列模型已上线国家超算互联网平台(www.scnet.cn),提供从1.5B到70B参数的一键推理服务,普惠中小开发者。四、未来展望:中国AI生态的“新基建”算力互联平台与DeepSeek的协同,标志着中国AI产业两大趋势:生态重构:从依赖国际巨头到国产模型+算力自主可控;普惠化:通过“边缘AI算力”和分布式节点,降低企业应用门槛。专家预测:随着DeepSeek开源生态的完善,中国有望在3年内孵化出10个以上垂直领域的世界级大模型应用!从技术突破到产业落地,DeepSeek与算力互联平台的结合,不仅是一次资源整合,更是中国AI自主创新的里程碑。开发者们,赶紧登录算力互联公共服务平台,体验“一站式”算力调用,抢占AI新时代的先机吧! 声明:本文部分信息综合自中国信通院、IT之家、经济观察网等报道。
-
宝子们,和大家唠唠 DeepSeek 对人工智能发展的影响~DeepSeek 火爆出圈,拿下美国和中国区 App Store 免费榜双料第一,还成为首个超越 OpenAI ChatGPT 的 AI 助手类应用(至少在成本、和中文能力上无可争议的超越)。其采用 Multi-Head Latent Attention(MLA)和 DeepSeek MoE 架构等创新技术,显著提升模型性能和效率。DeepSeek 的开源策略,支持商业友好的 MIT 许可证,开源模型权重,没有对下游应用的限制,引发全球科技圈强烈震动。让我们一起见证并探讨 DeepSeek 如何推动 AI 应用拓展和技术创新,也许它将开启人工智能的新纪元~
-
DeepSeek(深度求索)是由中国人工智能公司深度求索(DeepSeek Inc.)开发的一系列大语言模型(LLMs)和人工智能解决方案,专注于推动通用人工智能(AGI)的研究与应用。该系列以高效训练、强大性能和多样化场景适配为特点,覆盖了从开源模型到商业闭源模型的多类产品。以下是其核心模型及技术概览:一、DeepSeek 系列核心模型1. MoE 架构模型DeepSeek MoE-16B/8x220B特点:采用混合专家(Mixture of Experts, MoE)架构,通过稀疏激活提升模型效率。16B版本激活参数量仅2.8B,推理成本接近7B模型,性能接近70B稠密模型。训练数据:基于8.1T tokens的高质量多语言语料。应用:适用于高性价比的复杂任务处理,如长文本生成和多轮对话。2. 对话模型DeepSeek Chat/Chat 32k上下文窗口:支持16k/32k长上下文,擅长处理多轮对话和长文本理解。性能:在MT-Bench、AlpacaEval等评测中超越GPT-3.5,接近GPT-4水平。DeepSeek-R1-Lite-Preview轻量级对话模型,针对低资源场景优化,支持实时交互。3. 开源模型DeepSeek LLM 7B/67B开源协议:7B模型免费商用,67B模型学术研究可用。性能:中英文能力均衡,在MMLU、C-Eval等基准测试中超越Llama 2和大部分同规模模型。DeepSeek-Math 7B专注于数学推理,通过强化学习优化,在MATH数据集上表现优异。4. 数学与代码推理DeepSeek Math/Code数学模型通过“过程奖励”策略提升逻辑推理能力,代码模型支持复杂代码生成与调试。二、技术亮点高效MoE架构动态路由机制优化专家选择,平衡计算效率与模型性能。长上下文处理支持32k tokens上下文窗口,结合位置编码优化,减少长文本中的信息丢失。多模态扩展部分模型集成多模态理解能力(如图文问答),扩展应用边界。开源生态提供全流程工具链(训练框架、微调工具),降低开发者使用门槛。三、应用场景企业级应用:智能客服、文档分析、金融报告生成。教育科研:数学解题辅助、编程教学、学术文献总结。开发者工具:代码生成、自动化测试、数据清洗脚本编写。四、性能对比模型参数量上下文长度关键优势典型评测得分DeepSeek Chat 32k67B32k长文本对话MT-Bench: 8.1DeepSeek Math 7B7B4k数学推理MATH: 51.7%DeepSeek MoE-16B16B4k高性价比推理MMLU: 70.5DeepSeek LLM 67B67B4k中英文综合能力C-Eval: 81.3五、未来方向多模态融合:深化图文、音视频跨模态理解。超级长上下文:探索百万级token上下文窗口。AGI路径探索:结合认知科学提升模型逻辑与创造力。DeepSeek系列通过技术创新与开源策略,持续推动大模型在工业界与学术界的落地,成为全球AGI竞争中的重要参与者。如需更详细的技术文档或评测数据,可访问其官方GitHub仓库或研究论文。六、技术细节与创新1. 高效训练策略数据优化:DeepSeek 采用多阶段数据筛选与增强技术,通过预训练数据的动态去噪和重加权策略,提升模型对高质量知识的吸收效率。例如,针对数学与代码数据,引入领域特定的数据增强(如问题变体生成、代码重构)。分布式训练:结合 ZeRO 优化和混合并行技术(张量并行+流水线并行),在千卡集群上实现高资源利用率,67B 模型训练时间较同类框架缩短约 30%。2. 推理加速技术动态计算分配:MoE 模型通过专家预测器(Expert Predictor)提前路由,减少推理时的计算延迟。例如,DeepSeek MoE-16B 在真实场景中的推理速度比同等性能的稠密模型快 1.8 倍。量化与压缩:支持 INT4 量化技术,在保证 95% 以上性能的前提下,将模型显存占用降低至原大小的 1/4,适配边缘设备部署。3. 安全与伦理设计对齐机制:通过 RLHF(人类反馈强化学习)和 RLAIF(AI 反馈强化学习)双轨对齐策略,减少模型生成有害或偏见内容的风险。例如,在 DeepSeek Chat 中引入“安全阈值”动态过滤机制。可解释性工具:提供神经元激活追踪和决策路径可视化工具,帮助开发者理解模型行为,满足金融、医疗等高风险场景的合规需求。七、生态系统与开发者支持1. 开源工具链DeepSeek-Turbo:一站式微调框架,支持从数据预处理到模型部署的全流程,集成低秩适配(LoRA)、梯度 checkpoint 等优化技术,可在单卡上微调 7B 模型。Model Zoo:提供预训练、对话、数学等场景的数百个微调 checkpoint,覆盖教育、编程、法律等垂直领域。2. 社区与合作伙伴开发者竞赛:定期举办垂类模型优化挑战赛(如“医疗问答大模型”),提供算力奖励和商业合作机会。企业级服务:与阿里云、腾讯云等云厂商合作,推出“DeepSeek 模型即服务”(MaaS),支持私有化部署和定制化训练。3. 教育赋能计划高校合作:向全球高校开放 7B 模型的免费研究授权,并配套课程与实验案例(如“用 DeepSeek 复现经典 NLP 论文”)。开发者文档:提供中英双语的技术白皮书、API 文档及故障排查指南,降低非专业团队的使用门槛。八、行业应用案例1. 金融领域智能投研:某券商利用 DeepSeek LLM 67B 分析财报与新闻,自动生成上市公司风险评级报告,将分析师效率提升 40%。合规审查:模型通过微调识别合同条款中的潜在法律冲突,准确率达 92%,误报率低于 5%。2. 医疗领域辅助诊断:结合医学文献微调的 DeepSeek-R1 模型,在患者症状描述中推荐疑似疾病,辅助医生缩短初诊时间。科研加速:自动提取论文中的药物相互作用数据,帮助药企快速构建知识图谱。3. 教育领域个性化辅导:教育机构集成 DeepSeek-Math 7B,为学生提供分步解题指导,在奥数训练中使平均得分提升 15%。自动批改:支持代码作业的语法检查与逻辑错误定位,覆盖 Python、Java 等主流语言。九、挑战与展望1. 当前局限长上下文依赖:尽管支持 32k tokens,但对超长文本中细粒度信息的连贯理解仍存在偏差(如法律文档的条款交叉引用)。多模态瓶颈:图文联合推理能力尚处于早期阶段,复杂图表(如电路图、化学方程式)的解析准确率不足 60%。2. 未来突破点记忆增强架构:探索外部知识库的动态挂载技术,实现模型“实时学习”而不必全量重训练。能源效率:目标在 3 年内将训练同等性能模型的碳排放降低 50%,通过硬件-算法协同设计(如稀疏计算芯片适配)。3. 社会影响就业结构变革:DeepSeek 在客服、编程等领域的落地可能重塑劳动力市场,需配套职业再培训政策。全球协作:通过开源模型促进发展中国家AI技术普惠,缩小“智能鸿沟”。十、结语DeepSeek 系列不仅代表了中国在AGI技术上的前沿探索,更通过开源开放、产业协同的策略,推动大模型从实验室走向千行百业。其在效率与性能的平衡、垂直场景的深耕、伦理安全的重视等方面,为行业树立了新标杆。随着多模态、超级长上下文等技术的成熟,DeepSeek 或将成为首个在专业领域达到人类专家水平的AI模型,重新定义人机协作的未来。注:如需进一步了解技术实现或合作详情,可参考以下资源:官网:cid:link_1GitHub:cid:link_0研究论文:《DeepSeek MoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》
-
最近爆火的大模型DeepSeek和其他类型的大模型相比,都有什么优势呢?
-
2025年,人工智能已不再是实验室里的概念验证,而是像水电般渗透进人类文明的毛细血管。从量子计算驱动的蛋白质折叠预测突破,到城市级AI治理系统的常态化运行;从脑机接口技术首次通过FDA认证,到开源大模型生态引发的生产力革命——这个1月,全球科技版图正以分钟为单位被重新书写。【技术干货】 人工智能技术文章:基于神经网络的图像分类实现https://bbs.huaweicloud.com/forum/thread-0248173206953867061-1-1.html【其他】 Datumaro数据集管理工具介绍https://bbs.huaweicloud.com/forum/thread-0272172568016530036-1-1.html【其他】 深度学习训练过程的随机性https://bbs.huaweicloud.com/forum/thread-0271172848593557025-1-1.html【技术干货】 深度学习在医学影像分析中的应用https://bbs.huaweicloud.com/forum/thread-0271172901386925027-1-1.html【技术干货】 自然语言处理技术在智能客服中的应用与发展https://bbs.huaweicloud.com/forum/thread-0251172901469638040-1-1.html生成对抗网络(GAN)在创意产业中的应用探索https://bbs.huaweicloud.com/forum/thread-0296172901530982034-1-1.html【其他】 Faster R-CNN与Dynamic R-CNN的区别https://bbs.huaweicloud.com/forum/thread-0296172925711253036-1-1.htmlFaster R-CNN 还是 Dynamic R-CNN 的选择考量https://bbs.huaweicloud.com/forum/thread-0296172925880291037-1-1.html【技术干货】 基于深度学习的图像分类入门教程https://bbs.huaweicloud.com/forum/thread-0248173206811197060-1-1.html【其他】 图像分类与其他视觉任务的关系https://bbs.huaweicloud.com/forum/thread-0296172166505463015-1-1.html【其他】 物体检测开源数据集介绍https://bbs.huaweicloud.com/forum/thread-0272172420323257026-1-1.html【其他】 图像分类数据集介绍https://bbs.huaweicloud.com/forum/thread-02104172420907435018-1-1.html【其他】 自动学习AutoML介绍https://bbs.huaweicloud.com/forum/thread-0248172421133832018-1-1.html人工智能面试题集锦https://bbs.huaweicloud.com/forum/thread-02127172531820352019-1-1.html2025年的AI技术生态已形成“基础研究-工具链-产业落地-人才培育”的闭环体系。本合集既是对技术演进的关键切片,也是应对智能化浪潮的行动手册——无论你是算法工程师、行业决策者还是跨界探索者,都能在此找到锚定未来的坐标点。技术的终极意义,终将回归于如何让人工智能的“水电化”进程,真正服务于人类文明的升维。
-
图像分类是计算机视觉中的基础任务,广泛应用于面部识别、医疗诊断和自动驾驶等领域。本文将通过一个代码实例,展示如何使用 TensorFlow 和 Keras 构建和训练一个简单的卷积神经网络(CNN)模型,实现对手写数字数据集(MNIST)的分类。环境准备在开始之前,请确保你的 Python 环境中已安装以下库:TensorFlowMatplotlibNumpy你可以通过以下命令安装它们:pip install tensorflow matplotlib numpy数据准备我们将使用 TensorFlow 提供的 MNIST 数据集,它包含 6 万张训练图片和 1 万张测试图片,图片为 28x28 灰度图像。import tensorflow as tf from tensorflow.keras.datasets import mnist import matplotlib.pyplot as plt # 加载 MNIST 数据集 (x_train, y_train), (x_test, y_test) = mnist.load_data() # 数据预处理:归一化到 [0, 1] x_train = x_train / 255.0 x_test = x_test / 255.0 # 将标签转换为独热编码 y_train = tf.keras.utils.to_categorical(y_train, 10) y_test = tf.keras.utils.to_categorical(y_test, 10) # 可视化部分训练数据 plt.figure(figsize=(10, 5)) for i in range(10): plt.subplot(2, 5, i + 1) plt.imshow(x_train[i], cmap="gray") plt.title(f"Label: {y_train[i].argmax()}") plt.axis("off") plt.show() 模型构建我们将使用卷积神经网络 (CNN) 来构建一个简单的图像分类器。from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout # 构建 CNN 模型 model = Sequential([ # 输入层,28x28 图像扩展为 28x28x1 tf.keras.layers.Input(shape=(28, 28, 1)), # 卷积层 + 激活函数 Conv2D(32, (3, 3), activation="relu"), MaxPooling2D((2, 2)), # 第二个卷积层 Conv2D(64, (3, 3), activation="relu"), MaxPooling2D((2, 2)), # 全连接层 Flatten(), Dense(128, activation="relu"), Dropout(0.5), # 防止过拟合 Dense(10, activation="softmax") # 输出层,10 类 ]) # 模型摘要 model.summary() 模型训练接下来,我们将编译模型并训练它。# 编译模型 model.compile( optimizer="adam", # 使用 Adam 优化器 loss="categorical_crossentropy", # 交叉熵损失 metrics=["accuracy"] ) # 训练模型 history = model.fit( x_train[..., tf.newaxis], # 增加通道维度 y_train, epochs=10, # 迭代次数 batch_size=64, validation_split=0.1 # 10% 数据用于验证 ) # 保存模型 model.save("mnist_cnn_model.h5") 模型评估与测试我们将在测试数据集上评估模型性能。# 加载模型 model = tf.keras.models.load_model("mnist_cnn_model.h5") # 测试模型 test_loss, test_acc = model.evaluate(x_test[..., tf.newaxis], y_test) print(f"测试准确率: {test_acc:.2%}") # 可视化测试结果 import numpy as np predictions = model.predict(x_test[..., tf.newaxis]) plt.figure(figsize=(10, 5)) for i in range(10): plt.subplot(2, 5, i + 1) plt.imshow(x_test[i], cmap="gray") plt.title(f"Pred: {np.argmax(predictions[i])}") plt.axis("off") plt.show() 总结本文介绍了如何构建和训练一个简单的卷积神经网络(CNN)来完成图像分类任务。通过 TensorFlow 提供的高层 API,我们可以轻松构建复杂的神经网络模型。你可以在此基础上尝试更多的改进,如调整网络结构、使用数据增强或迁移学习来提升模型性能。
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签