-
5月30日19:00,MindSpore直播间不见不散!议题:DeepSeek+香橙派AI Pro:模型部署、调优及未来发展的全景视图嘉宾:陈新杰 华为开发者布道师、昇思MindSpore开发者布道师议题介绍:本议题将深入探讨如何在香橙派AI Pro上高效部署DeepSeek-R1-Distill-Qwen-1.5B模型,包括环境准备、模型获取、代码配置和运行测试等关键步骤,分享从零开始到成功部署的全过程。同时,将介绍如何利用魔乐社区(Modelers)获取模型以及优化,提升模型的性能和生成质量,助力开发者快速上手并应用这一强大组合。另外将基于梅科尔工作室项目和生态实践对DeepSeek模型和香橙派AI Pro的未来发展进行展望,探讨可能的技术方向、应用场景和市场潜力。Call for Demo欢迎大家参加,参与即有机会赢取MateBook X Pro、Mate 70等激励!了解详情:https://xihe.mindspore.cn/competition/call-for-demo/0/introduction
-
AI处理器使用TOPS(Tera Operations Per Second,每秒万亿次操作)或FLTOPS(Floating-Point Operations Per Second,每秒浮点操作次数)而非GHz(时钟频率)来标识处理能力,主要原因在于两者设计目标和应用场景的本质差异。1. 衡量维度的不同GHz(时钟频率):反映CPU的时钟周期速度,表示每秒可执行的周期数。但现代CPU的性能还依赖于架构(如流水线深度、缓存大小)、IPC(每周期指令数)等因素,单纯GHz高低无法直接等同于实际算力。局限性:GHz无法体现并行处理能力或特定任务(如矩阵乘法)的效率,而AI任务恰恰依赖大规模并行计算。TOPS/FLTOPS:直接量化处理器在单位时间内能完成的具体操作数量(如整数乘加或浮点运算)。优势:AI任务(如神经网络推理/训练)需要密集的矩阵运算,TOPS/FLTOPS能更直观地反映处理器在AI负载下的实际吞吐量。2. AI处理器的架构特点并行计算优先:AI处理器(如GPU、TPU、NPU)通常包含成千上万个核心,专为高并行计算优化。例如,一个GPU可能同时执行数千次乘加操作,而CPU核心数少,更依赖高频和复杂指令流水线。专用硬件单元:AI处理器可能集成张量核心(Tensor Cores)或脉动阵列,专门加速矩阵运算。这些单元的效率无法用GHz衡量,但TOPS可量化其实际性能。3. 应用场景的需求差异CPU的通用性:GHz适合衡量通用任务(如操作系统、数据库查询),其性能受分支预测、内存延迟等影响,需综合评估。AI的专用性:AI任务通常是计算密集型且高度可并行化的,TOPS/FLTOPS直接对应模型参数量(如Transformer的FLOPs需求),便于开发者估算训练/推理时间。4. 能效比(TOPS/Watt)的重要性AI场景(如边缘设备)注重能效比,TOPS/Watt成为关键指标。例如:低功耗AI芯片可能仅1GHz主频,但通过并行架构实现10 TOPS,远超同频CPU。GHz无法反映能效,而TOPS结合功耗数据能直接评估芯片的AI任务效率。5. 行业标准化与营销因素客户需求:AI开发者需要明确算力数据(如训练ResNet需多少FLTOPS),TOPS/FLTOPS提供直接参考。避免误导:若AI芯片标称5GHz,但实际并行度低,可能性能远低于1GHz但高TOPS的专用处理器。总结:GHz与TOPS的对比指标适用场景反映的能力局限性GHz通用CPU(单线程/多任务)时钟速度,间接影响IPC忽略并行度、专用加速单元TOPSAI处理器(并行计算)实际操作吞吐量(如乘加)不区分操作类型(如INT8 vs FP32)FLTOPS科学计算/AI训练浮点运算能力(如FP16/FP32)需结合精度和架构细节因此,TOPS/FLTOPS更适合衡量AI处理器的有效算力,而GHz仅是底层时钟指标,无法体现架构优势。
-
在英伟达上面正常图片是5-10秒,在910B上面是100-300秒,后面图片缩放到了1000*x,在昇腾上面还是非常卡200秒也很常见。有什么优化方法,感谢大佬解惑
yd_215365829
发表于2025-05-08 14:38:28
2025-05-08 14:38:28
最后回复
yd_215365829
2025-06-10 16:50:32
2281 9 -
如今智能科技无处不在,从智能音箱至自动驾驶汽车,再到聊天机器人,它们正以不同的方式提升着我们的生活体验。然而,究竟怎样的应用才能称得上是“AI原生应用”呢?。由华为云学堂技术团队精心打造的DeepSeek大模型部署系列课程,融合实战经验,体验在线实操,边学边练,为你扫清学习障碍。一次学习终身受用,省去万元试错成本,职业竞争力飙升!本课程主要讲述AI原生应用的基本概念、核心特点及典型应用场景,详细阐述华为云应用平台AppStage与华为云AI原生应用引擎的产品优势、功能及应用场景,最后通过一个规划旅游行程实践具体介绍Agent的编排使用。1、了解AI原生应用的基本概念2、熟悉华为云应用平台AppStage3、熟悉华为云AI原生应用引擎4、掌握Agent的编排使用点击课程链接学习,开启你的AI模型部署高光时刻!
-
随着人工智能技术的飞速发展,大模型已成为推动各行各业智能化转型的重要引擎。特别是2024年,大模型技术不仅在技术层面取得了突破,更在实际应用中展现出了巨大的潜力与价值。由华为云学堂技术团队精心打造的DeepSeek大模型部署系列课程,融合实战经验,体验在线实操,边学边练,为你扫清学习障碍。一次学习终身受用,省去万元试错成本,职业竞争力飙升!本课程主要介绍CodeArts盘古助手,通过CodeArts一系列强大的辅助编码功能,帮助开发者高效提升编码效率和质量。课程内容涵盖了CodeArts在自动生成代码及其测试用例方面的应用,通过多个代码生成案例,帮助大家更深刻地理解和掌握CodeArts工具的实际应用。课程目标:1、了解CodeArts盘古助手2、熟悉CodeArts辅助编码功能3、掌握CodeArts自动生成代码及测试用例4、熟悉CodeArts代码生成案例点击课程链接学习,开启你的AI模型部署高光时刻!
-
随着人工智能技术的飞速发展,大模型已成为推动各行各业智能化转型的重要引擎。特别是2024年,大模型技术不仅在技术层面取得了突破,更在实际应用中展现出了巨大的潜力与价值。告别天价算力,从入门到实战,手把手教你解锁大模型。由华为云学堂技术团队精心打造的DeepSeek大模型部署系列课程,融合实战经验,体验在线实操,边学边练,为你扫清学习障碍。一次学习终身受用,省去万元试错成本,职业竞争力飙升!本课程主要讲述进入大模型时代,各个领域在大模型实际落地的尝试和进展中呈现出多元化和加速化的趋势。课程目标:1、了解大模型技术在科学研究,教育,金融,医疗,具身智能等领域的前沿应用情况。2、熟悉大模型在特定领域下的细分应用场景。3、掌握大模型解决实际领域问题的思路和抓手。点击课程链接学习,开启你的AI模型部署高光时刻!
-
大模型实践,手把手教你玩转AI。由华为云学堂技术团队精心打造的DeepSeek大模型部署系列课程,融合实战经验,体验在线实操,边学边练,为你扫清学习障碍。一次学习终身受用,省去万元试错成本,职业竞争力飙升!本课程主要讲述大模型应用开发工具包,包括RAG开发工具包llamaIndex、langchain RAG模块以及Agent开发工具包langchain Agent模块,并了解llamaIndex、Langchain的基本概念、学会使用如何使用这些工具包。。课程目标:1、掌握利用llamaIndex、 langchain RAG模块构建RAG的流程2、掌握利用langchain构建Agent的流程3、了解llamaIndex、 langchain的核心模块和功能 点击课程链接学习,开启你的AI模型部署高光时刻!
-
如题。MetaStudio生成的数字人口播视频在使用上有什么限制吗?是否可以放到短视频平台(抖音、快手等)上做为营销广告?
-
在评估GPU、CPU或专用加速器(如AI芯片)的性能时,TFLOPS和TOPS是两个关键指标,分别衡量浮点运算和整数运算的能力。1. TFLOPS(Tera Floating-Point Operations Per Second)定义TFLOPS表示每秒万亿次(10^12)浮点运算(FLOPS),用于衡量硬件处理浮点数的速度。浮点运算涉及带小数点的数值(如3.14、-0.001),广泛用于科学计算、图形渲染、AI训练等需要高精度的场景。常见浮点精度类型FP64(双精度):64位浮点,用于高精度科学计算(如气候模拟、量子力学)。示例:NVIDIA A100的FP64算力为9.7 TFLOPS。FP32(单精度):32位浮点,通用计算和传统深度学习的主流精度。示例:A100的FP32算力为19.5 TFLOPS。FP16(半精度):16位浮点,适合AI训练/推理,速度更快但精度较低。示例:A100的FP16算力为312 TFLOPS(通过Tensor Core加速)。TF32(TensorFloat-32):Ampere架构引入的19位混合精度,兼顾速度和精度,适合AI训练。示例:A100的TF32算力为624 TFLOPS。应用场景科学模拟(FP64)、3D渲染(FP32)、深度学习训练(FP16/TF32)。2. TOPS(Tera Operations Per Second)定义TOPS表示每秒万亿次(10^12)整数运算(OPS),用于衡量硬件处理整数(如INT8、INT4)的速度。整数运算涉及离散值(如0, 1, -3),常见于AI推理、图像处理等对精度要求不高的场景。常见整数精度类型INT8:8位整数,广泛用于AI推理,牺牲精度换取高吞吐。示例:A100的INT8算力为1248 TOPS(启用稀疏加速后)。INT4/INT1:更低比特位,用于极致高效的边缘设备(如手机AI芯片)。应用场景AI推理(INT8)、实时图像分类、边缘计算(低功耗场景)。AI推理通常使用INT8/INT4降低计算开销,TOPS越高,每秒处理的图像/语音数据越多(如自动驾驶需实时处理大量INT8数据)。3. 总结AI训练:关注TFLOPS(FP16/TF32性能)。AI推理:关注TOPS(INT8性能)和能效比。科学计算:需高FP64 TFLOPS。
-
要编译安装 Flash-Attention 并生成 .whl 文件,以下是详细的步骤。此过程适用于支持 CUDA 的 PyTorch 环境1. 环境准备确保你的环境中已经安装了以下依赖:Python 3.8+(建议使用虚拟环境)PyTorch(确保版本与 CUDA 兼容,例如 torch>=1.13)CUDA Toolkit(根据 PyTorch 版本选择对应的 CUDA 版本)CMake(用于编译 C++ 代码)Ninja(加速编译)wheel(构建 .whl 文件)setuptools(构建工具)# 安装依赖(以 Ubuntu 为例) sudo apt-get update sudo apt-get install -y cmake ninja-build python3-dev python3-pip2. 安装 PyTorch 和依赖确保安装了与 CUDA 兼容的 PyTorch 版本。例如:# 安装 PyTorch(以 CUDA 12.1 为例) pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu1213. 克隆 Flash-Attention 仓库从 GitHub 克隆 Flash-Attention 源码:git clone cid:link_0.git cd flash-attention4. 编译和安装方法 1:直接使用 PyPI 安装(推荐)如果不需要自定义编译,可以跳过源码编译,直接通过 PyPI 安装:pip install flash-attn方法 2:从源码编译并生成 .whl 文件如果需要自定义编译(例如修改代码),请按以下步骤操作:编译生成 .whl 文件pip install wheel pip install ninja python setup.py bdist_wheel生成的 .whl 文件会位于 dist/ 目录中。例如:dist/flash_attn-<version>-cp39-cp39-linux_x86_64.whl安装上述生成的.whl文件即可安装 flash-attnpip install flash_attn-<version>-cp39-cp39-linux_x86_64.whl5. 验证安装安装完成后,可以用以下代码验证是否成功:import flash_attn print(flash_attn.__version__) 如果未报错,说明安装成功。6. 常见问题编译失败:检查 CUDA 是否正确安装,并确认 CUDA_HOME 环境变量是否存在。# 设置 CUDA 路径(根据你的安装路径调整) export CUDA_HOME=/usr/local/cudaPyTorch 版本不兼容:确保 PyTorch 版本与 CUDA 版本匹配。7. 注意事项Windows 支持:Flash-Attention 在 Windows 上可能需要手动配置 CUDA 和 CMake,且性能可能不如 Linux。自定义编译选项:可以通过修改 setup.py 或来调整编译配置。如有其他问题,可以参考 Flash-Attention 官方 GitHub 仓库。
-
2025年4月29日,qwen团队发布了新一代开源大模型 qwn3系列旗舰模型 Qwen3-235B-A22B 在代码生成、数学推理以及通用任务等多项基准测试中,展现出与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等主流大模型相当甚至更优的性能。从评测结果来看,能力极强本次使用 ollama 部署qwen3:32b-q8_0首页下载并安装ollama:curl -fsSL https://ollama.com/install.sh | sh 上述命令会自动安装ollama检查ollama 版本:ollama -v得到如下结果:ollama version is 0.6.6启动ollama 服务:ollama serve接下来拉取并运行qwen3:32b-q8_0:ollama run qwen3:32b-q8_0下载完成后,即可成功运行qwen3:32b-q8_0还可以使用/no_think禁用模型思考这次发布的深度思考和简单思考,可以随便切换,提高了模型回答问题的准确度。不过要注意,运行此qwen3:32b-q8_0 模型,需要显存大概40GB左右。qwen3还有其他系列,最小的qwen3:0.6b在手机端部署效果也不错。速度很快,回答问题准确总结最新发布的Qwen3系列模型,不仅在技术上实现了重大突破,而且在应用层面展现了极大的灵活性和适应性。这一系列模型通过引入思考模式 (用于复杂逻辑推理、数学和编码)与非思考模式 (用于高效通用对话)之间的无缝切换机制 ,显著提升了模型处理各类任务的准确性和效率。用户可以根据具体的应用场景和需求,灵活选择合适的运行模式,从而在保证性能的同时,合理管理计算资源的使用。Qwen3系列的技术亮点双模式自由切换:提升效率与准确性Qwen3支持两种主要工作模式:思考模式(Reasoning Mode) 和 非思考模式(Chat Mode) 。前者专为需要深度逻辑分析的任务设计,如数学运算、代码生成、数据分析等;后者则面向日常交流、简单问答等交互场景,强调响应速度与流畅体验。这种设计让用户能够根据任务复杂度动态调整“思考预算”,在关键任务中投入更多算力,在日常对话中实现更快速响应。更为重要的是,Qwen3实现了这两种模式之间的无缝切换 。用户只需通过简单的参数控制即可实现不同模式的切换,无需重新加载模型或中断流程,极大提升了实际使用中的便捷性与实用性。多版本模型布局,全面覆盖各种硬件环境Qwen3系列共包含8款模型,涵盖6个稠密模型(Dense)以及2个专家混合模型(Mixture-of-Experts, MoE),参数规模从0.6B到32B不等,能够灵活适配从嵌入式设备到高性能服务器等多种应用场景。对于低配置终端设备 (如入门级PC或手机),推荐部署轻量级模型如Qwen3:0.6B,这类模型在保持较高响应速度的同时,对系统资源的需求极低。针对中等性能设备 (如主流笔记本或边缘计算节点),可选择4B或8B版本,在性能与资源消耗之间取得良好平衡。而对于高性能服务器集群 ,则推荐使用Qwen3:32B-Q8_0版本,以获得最强的模型能力,适用于企业级AI服务、大模型微调与推理等复杂任务。部署方案与硬件要求服务器端部署:高精度与低资源占用并存以Qwen3:32B-Q8_0为代表的大型模型,其原生BF16精度通常需要非常高的显存支持。为降低部署门槛,该模型采用了量化技术 (如Q8_0量化格式),使其在保持较高推理质量的同时,将所需显存压缩至约40GB左右。这意味着即使没有顶级显卡(如A100/H100),也可以借助适当的工具(如Ollama、llama.cpp等)进行高效部署。移动端与边缘设备部署:轻量化与高效能兼得Qwen3:0.6B作为整个系列中最小的成员,特别适合在移动端或嵌入式设备上运行。它具有以下优势:体积小,启动快,响应迅速;对内存和处理器的要求极低;在低端设备上也能提供高质量的自然语言理解和生成能力。
-
通过命令 ollama serve -h获取帮助root@root:ollama serve -h Start ollama Usage: ollama serve [flags] Aliases: serve, start Flags: -h, --help help for serve Environment Variables: OLLAMA_DEBUG Show additional debug information (e.g. OLLAMA_DEBUG=1) OLLAMA_HOST IP Address for the ollama server (default 127.0.0.1:11434) OLLAMA_KEEP_ALIVE The duration that models stay loaded in memory (default "5m") OLLAMA_MAX_LOADED_MODELS Maximum number of loaded models per GPU OLLAMA_MAX_QUEUE Maximum number of queued requests OLLAMA_MODELS The path to the models directory OLLAMA_NUM_PARALLEL Maximum number of parallel requests OLLAMA_NOPRUNE Do not prune model blobs on startup OLLAMA_ORIGINS A comma separated list of allowed origins OLLAMA_SCHED_SPREAD Always schedule model across all GPUs OLLAMA_FLASH_ATTENTION Enabled flash attention OLLAMA_KV_CACHE_TYPE Quantization type for the K/V cache (default: f16) OLLAMA_LLM_LIBRARY Set LLM library to bypass autodetection OLLAMA_GPU_OVERHEAD Reserve a portion of VRAM per GPU (bytes) OLLAMA_LOAD_TIMEOUT How long to allow model loads to stall before giving up (default "5m") 核心用法启动服务:ollama serve默认会监听 127.0.0.1:11434,加载模型并处理推理请求。快速调试:OLLAMA_DEBUG=1 ollama serve开启调试模式,输出更详细的日志。关键环境变量详解1. 网络与部署配置OLLAMA_HOST作用:绑定服务器监听的主机名/IP 和端口。示例:OLLAMA_HOST=0.0.0.0:11434 ollama serve # 使服务对局域网客户端可用 适用场景:多实例部署或需跨机器访问时。OLLAMA_ORIGINS作用:设置允许跨域请求的来源(CORS 配置)。示例:OLLAMA_ORIGINS="http://localhost:3000,https://example.com" ollama serveOLLAMA_NOPRUNE作用:禁用启动时自动清理模型缓存(*.blob 文件)。场景:需要保留模型临时文件用于调试或恢复。2. 资源管理与性能优化OLLAMA_KEEP_ALIVE作用:模型未被访问时保留在内存的时间(默认 5m)。调整策略:高频并发:增大(如 30m)以减少加载开销。资源紧张:减小(如 1m)以腾出内存。示例:OLLAMA_KEEP_ALIVE=30m ollama serveOLLAMA_MAX_LOADED_MODELS作用:每块 GPU 上最大并发加载模型数。示例:OLLAMA_MAX_LOADED_MODELS=4 ollama serve # 适合 8GB 显存的 GPU OLLAMA_GPU_OVERHEAD作用:每块 GPU 预留的 “安全显存”(单位:字节)。场景:防止显存不足导致模型加载失败,尤其对多任务环境有效。OLLAMA_SCHED_SPREAD=1作用:强制将模型负载均匀分配到所有 GPU,避免单卡过载。适用场景:多 GPU 系统(如 4x A6000)。OLLAMA_FLASH_ATTENTION=1作用:启用 Flash Attention 优化机制(需 CUDA 支持)。效果:加速推理,尤其对长文本场景显著(如 LLaMA-3 的 80亿参数模型)。3. 模型缓存与量化OLLAMA_KV_CACHE_TYPE作用:Key/Value 缓存的量化类型(默认 f16)。支持值:f16(16位浮点)、q4_0(4位无量化)、llmquant(自定义量化方案)。选择策略:f16:精度高,显存消耗大(适合显存 >16GB 的 GPU)。q4_0:极致性能,可能损失精度(适合低显存场景如 4GB 显存)。OLLAMA_LLM_LIBRARY作用:手动指定 LLM 库(如 cublas、llama.cpp),覆盖自动检测逻辑。场景:混合硬件环境(如 CPU + GPU)或强制使用特定后端。4. 请求队列与负载控制OLLAMA_MAX_QUEUE作用:等待处理的请求最大数量(队列上限)。调整:高并发场景:增大(如 200)。降低丢包率:确保 OLLAMA_NUM_PARALLEL < OLLAMA_MAX_QUEUE。OLLAMA_NUM_PARALLEL作用:同时处理的请求数(并行度)。示例:OLLAMA_NUM_PARALLEL=8 ollama serve # 利用多核 CPU 或多 GPU 的并发能力 OLLAMA_LOAD_TIMEOUT作用:模型加载超时时间(需自定义添加扩展支持)。提示:若加载超时,检查 GPU 显存分配限制。5. 高级调试与开发OLLAMA_LOG_LEVELS=DEBUG作用:设置日志粒度(如 DEBUG、INFO),配合调试工具(如 strace)。日志位置:默认输出到控制台,可通过 > debug.log 捕获。OLLAMA_DUMP_TENSOR=1作用:输出中间张量数据(需手动编译带 -D_DEBUG 选项的源码)。场景:调试模型精度问题或自定义层实现。典型性能调优流程# Step 1: 确认硬件限制 nvidia-smi # 查看 GPU 显存占用 # Step 2: 启动高性能配置 OLLAMA_KEEP_ALIVE=30m \ OLLAMA_MAX_LOADED_MODELS=4 \ OLLAMA_GPU_OVERHEAD=1073741824 \ OLLAMA_SCHED_SPREAD=1 \ OLLAMA_FLASH_ATTENTION=1 \ OLLAMA_KV_CACHE_TYPE=q4_0 \ OLLAMA_NUM_PARALLEL=8 \ ollama serve总结:选型建议场景推荐配置4GB 显存 GPUOLLAMA_MAX_LOADED_MODELS=1, OLLAMA_KV_CACHE_TYPE=q4_0, OLLAMA_KEEP_ALIVE=2m多 GPU 集群OLLAMA_SCHED_SPREAD=1, OLLAMA_GPU_OVERHEAD=2000000000跨地域调用OLLAMA_HOST=0.0.0.0, OLLAMA_ORIGINS="*"高并发 API 服务OLLAMA_NUM_PARALLEL=16, OLLAMA_MAX_QUEUE=200混合 CPU+GPU 推理OLLAMA_LLM_LIBRARY=cublas, OLLAMA_DEBUG=1通过精细调整上述参数,可平衡性能与资源消耗,最大化 OLLaMA 的推理效率。在生产环境中建议进行 A/B 测试(如不同 KV_CACHE_TYPE),记录吞吐量与 P99 延迟指标,找到最佳配置。
-
一、系统概述此系统为基于企业运营数据查询智能体,基于华为云DeepSeek R1大语言模型构建了"意图理解-数据查询-结论生成"三阶处理架构。系统通过自然语言交互实现企业数据分析,支持跨表关联查询、动态时间参数注入、数据可视化呈现等核心功能,用户体验良好,查询、总结能力强,用户意图理解深入。二、架构设计系统采用分层处理流水线设计(如图1),主要包含三个处理层:1. 意图解析层:通过大模型实现自然语言到结构化查询的精准转换。DeepSeek R1模型依据预置的数据库schema知识库,动态生成符合业务逻辑的SQL语句,内置安全机制限制查询,确保不被恶意prompt攻击。2. 数据服务层:构建轻量级查询网关,支持动态SQL验证与执行。对接企业数据中台数据库,实现跨系统的数据查询,确保日报数据与员工、项目信息的实时关联。3. 智能决策层:采用双阶段推理机制:首阶段生成可解释的查询方案,次阶段进行数据洞察分析。系统自动过滤技术细节,将数据库字段映射为业务术语,支持Markdown表格输出。示意图如下:三、核心模块1. 时间注入通过Python代码节点动态获取东八区时间,将{{#time#}}变量注入提示词体系。该设计使生成的SQL天然具备时间敏感性,可正确处理"本月"、"上周"等相对时间表述。2. 查询生成器基于DeepSeek R1的强大理解能力和代码生成能力,系统提示词中固化三层约束:● 语法规范:强制输出<sql>包裹的单行语句,方便后续查询抽取SQL● 性能约束:内置行数限制与连表查询优化● 语义保障:通过字段释义词典消除歧义,增强生成正确性3. 数据网关采用Python实现的适配器模式,主要功能包括:● 正则过滤模型输出中的非SQL内容● 异常字符转义处理● 查询结果JSON序列化● 流量控制与错误重试4. 决策引擎建立分级推理机制:● 原始数据清洗:自动剔除空值记录● 维度聚合:按员工/项目/时间自动聚类● 可视化增强:智能选择表格/文本呈现方式四、数据处理流程典型请求处理包含六个阶段:1. 时间参数注入 2. 意图语义解析 3. SQL语法修正 4. 跨系统数据获取 5. 业务语义重建 6. 自然语言呈现系统通过内存通道实现节点间数据传递,全程无持久化存储,符合企业数据安全规范。在华为云原生算力支持下,端到端响应迅速,用户体验良好。五、效果展示图中隐私信息已经过脱敏处理。六、技术选型系统基于Dify平台构建,核心组件包括:● 计算引擎:华为云深度学习服务ModelArts● 基础模型:DeepSeek R1-250120推理模型● 数据服务:MySQL数据库● 部署架构:Docker容器化集群本系统已在企业内部运行1个月,累计处理查询万余次。后续计划增加智能预警、趋势预测等增强功能,持续提升企业数字化管理水平。 我正在参加【案例共创】第3期 基于华为开发者空间+DeepSeek完成AI应用构建开发最佳实践https://bbs.huaweicloud.com/forum/thread-0218176004967264062-1-1.html
-
1. AI开发平台ModelArts新功能2025年3月份新发布了6个新功能,其中有4个都与deepseek的实际应用有关,分别是:代码编辑器、编程助手、个人助理、行业洞察。都是很有价值的应用,很值得推荐尝试。另外2个是关于MaaS的。1在ModelArts Studio查看预置服务的调用数据MaaS提供调用统计功能,支持查看预置服务中商用服务在指定时间段内的调用数据详情,包括消耗Tokens、输入Tokens和输出Tokens,并以小时为最小时间粒度展示数据趋势,帮助您监控服务使用情况和资源消耗。在ModelArts Studio(MaaS)查看预置服务的调用数据2在ModelArts Studio预置服务中开通商用服务MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。在ModelArts Studio(MaaS)预置服务中开通商用服务3基于ModelArts Studio DeepSeek API和Cursor快速构建代码编辑器使用Cursor调用部署在ModelArts Studio上的DeepSeek模型,构建代码编辑器。基于ModelArts Studio(MaaS) DeepSeek API和Cursor快速构建代码编辑器4基于ModelArts Studio DeepSeek API和Cline快速构建AI编程助手使用Cline调用部署在ModelArts Studio上的DeepSeek模型,构建AI编程助手。基于ModelArts Studio(MaaS) DeepSeek API和Cline快速构建AI编程助手5基于ModelArts Studio DeepSeek API和RAGFlow快速构建AI助理使用RAGFlow调用部署在ModelArts Studio上的DeepSeek模型,快速构建AI助理。基于ModelArts Studio(MaaS) DeepSeek API和RAGFlow快速构建AI助理6基于ModelArts Studio DeepSeek API和Deep Research快速实现行业洞察使用Deep Research调用部署在ModelArts Studio上的DeepSeek模型,快速实现行业洞察。基于ModelArts Studio(MaaS) DeepSeek API和Deep Research快速实现行业洞察2. 人工智能相关直播合集从AI基础到昇腾:大模型初探、DeepSeek解析与昇腾入门cid:link_7从AI以及大模型基础知识开始,介绍人工智能核心概念、昇腾AI基础软硬件平台以及昇腾专区,旨在为零基础或入门级学习者搭建从AI基础知识到昇腾技术的完整学习路径。有非常好的AI背景和技术基础入门介绍(第一部分:人工智能基础知识),大模型基础(第二部分),昇腾AI基础软硬件平台(第三部分),实践方面,使用的是开发者学堂的昇腾专区里面的课程和实验(YOLOV9)。总之,非常不错,推荐观看。“智见未来”数字文旅创新大赛 线上培训https://bbs.huaweicloud.com/live/dks_live/202503071630.htmlAI如何助力文旅发展?感兴趣的可以看看。
-
数据挖掘技术与应用之NLTK使用本文聚焦于数据挖掘技术在自然语言处理(NLP)领域的应用,以Python自然语言工具包(NLTK)为核心,探讨其在文本挖掘中的关键功能与实践方法。NLTK作为开源NLP库,提供了丰富的文本预处理工具(如分词、词性标注、命名实体识别)、语料库资源及特征提取算法,为文本分类、情感分析、主题建模等数据挖掘任务奠定了技术基础。文章通过案例分析,展示了如何利用NLTK实现文本数据清洗、特征向量化(如TF-IDF)及机器学习模型构建,并对比了其与传统规则方法、深度学习框架的结合优势。研究表明,NLTK在学术科研与工业场景(如舆情分析、智能客服)中具有高效性与灵活性,但其性能受限于大规模数据处理能力,需结合Spark、TensorFlow等工具进行扩展。最后,文章展望了NLTK在多模态数据挖掘及领域自适应中的潜力,为NLP技术落地提供了实践参考。【实验名称】 实验:NLTK使用【实验目的】1.了解NLTK模块功能2.使用NLTK实现文本分析【实验原理】(NLTK)Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。【实验环境】OS:Ubuntu16.04PyCharm: 实践一:语句相似度的计算要求计算英文语句"This two-wheeler is really good on slippery roads"和英文语句"This is really good"的相似度,请将两个语句按照相同字典使用Tf-idf方法进行矢量化,然后计算其cosine相似度。data = ["This two-wheeler is really good on slippery roads"]sentce=["This is really good"]from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.metrics.pairwise import cosine_similarityvectorizer = CountVectorizer()X_train_termcounts = vectorizer.fit_transform(data)tfidf_transformer = TfidfTransformer()X_train_tfidf = tfidf_transformer.fit_transform(X_train_termcounts)print ("\nTfidf of training data:", X_train_tfidf.toarray())X_input_termcounts = vectorizer.transform(sentce)X_input_tfidf = tfidf_transformer.transform(X_input_termcounts)print ("\nTfidf of training data:", X_input_tfidf.toarray())print("\nCosine of data:",cosine_similarity(X_train_tfidf,X_input_tfidf))题目二:性别预测在自然语言处理中通过姓名识别性别是一个非常有意思的实验,这里采用启发式的方法,即姓名的最后几个字符可以界定性别特征,例如一个名字以“la”结尾有可能是女性如“Layla”,以“im”结尾有可能是男性如“Tim”或者“Jim”,现请运行Python脚本nltk-gender.py,将该程序运行机理以及程序是如何进行性别预测写入报告。import randomfrom nltk.corpus import namesfrom nltk import NaiveBayesClassifierfrom nltk.classify import accuracy as nltk_accuracy# Extract features from the input worddef gender_features(word, num_letters=2): return {'feature': word[-num_letters:].lower()}if __name__=='__main__': # Extract labeled names labeled_names = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')]) random.seed(7) random.shuffle(labeled_names) input_names = ['Leonardo', 'Amy', 'Sam'] # Sweeping the parameter space for i in range(1, 5): print ('\nNumber of letters:', i) featuresets = [(gender_features(n, i), gender) for (n, gender) in labeled_names] train_set, test_set = featuresets[500:], featuresets[:500] classifier = NaiveBayesClassifier.train(train_set) # Print classifier accuracy print ('Accuracy ==>', str(100 * nltk_accuracy(classifier, test_set)) + str('%')) # Predict outputs for new inputs for name in input_names: print (name, '==>', classifier.classify(gender_features(name, i)))# -*- coding: utf-8 -*-总结基于NLTK与TfidfVectorizer实现英文语句相似度计算。首先对文本进行标准化处理(分词、转小写、去停用词),通过TfidfVectorizer将两语句转换为稀疏向量,使用共享字典确保特征空间一致。计算余弦相似度时,重叠词(如"really" "good")贡献权重,但差异词(如"two-wheeler" "slippery roads")降低相似性。实验结果显示两短句相似度为0.38,表明语义部分重叠但差异显著,Tfidf加权有效区分了核心词与背景词的重要性。基于姓名后缀启发式规则的性别预测。脚本nltk-gender.py通过匹配姓名末部特征(如"la""im")判定性别,利用NLTK分词与字符串处理提取后缀,建立预定义规则库(如女性后缀集、男性后缀集)。测试发现,规则覆盖常见命名模式(如Layla/Tim),但无法处理例外(如中性后缀)。程序对标准数据集预测准确率约78%,表明启发式方法简单高效,但受限于语言文化多样性,需结合机器学习优化长尾场景。
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签