• [问题求助] 昇腾算力券申请有效期问题
    项目时间是25年11月到26年9月,但昇腾AI算力券申请界面的“额度有效期”一栏无法填写跨年的日期,只能填小于30天的数字。“额度有效期”一栏所申请的日期是否会影响到算力的使用时限?是需要把申请所获得的额度拆分到两年中分别填写申请吗?
  • [技术干货] 【赛后分享】从训练到推理,从框架到算子:昇腾 NPU 大模型推理加速全栈优化
    一、赛题理解与总体思路我们是本次华为“揭榜挂帅”赛道的“全都对队”,我们在本次比赛中取得了擂主奖项。在对赛题进行分析时,我们意识到,面对的是一项覆盖 训练—推理—算子级优化 的全流程性能挑战。赛题要求选手不仅能调优模型效果,更需深入昇腾 NPU 底层,对推理链路进行系统级重构。我们的判断是:只有从训练端减负、推理端提效、算子端深挖三个层面同时发力,才能在 NPU 上发挥出模型的极致性能。二、训推一体:从源头降低计算压力我们先从训练侧着手,目标是在不显著牺牲精度的前提下,减少模型在推理阶段的无效计算。SFT 阶段的输出规范化在 SFT 中,我们将 CoT(Chain-of-Thought)和最终答案严格约束为比赛指定格式,使模型从训练阶段就习惯于“结构化回答”。强化学习阶段加入长度惩罚在 RL 中,我们设计了带 长度惩罚项 的 Reward Function:冗余输出将触发指数级负奖励。这种训练策略促使模型自然收敛为“简洁表达”。实验显示:输出 Token 数量减少约 30%,有效降低了推理端的算力压力,同时保持了接近原精度。三、底层打磨:深度利用 CANN 软件栈在推理侧,我们利用 CANN 软件栈,对算子、图模式、内存等维度进行了深入优化。启用 torch.npu 图模式小 batch 推理时,算子下发的开销会显著影响吞吐。我们将 PyTorch 动态图编译为 NPU 静态计算图:原理: 将执行流固化,使编译器能够进行更激进的融合与调度优化。收益: 消除 Python Launch Overhead,并提升算子融合、内存复用效率。FFN 多算子融合我们基于 CANN 自定义算子,将 FFN 中若干线性变换与激活操作 融合为单一 Kernel,从而显著减少 NPU 显存 ↔ 计算单元之间的往返。四、架构级创新:推理吞吐的倍增策略在推理架构层,我们通过引入新技术与调整策略,突破了吞吐瓶颈。EAGLE 3 投机解码传统自回归逐 Token 解码速度受限。我们采用 EAGLE 3 架构:Draft Model 并行生成候选序列;大模型一次性并行验证。结果: 在不损失精度的前提下,解码速度提升约 1.5 倍。取消 Chunked Prefill(基于赛题场景的反直觉选择)行业内常用 Chunked Prefill 用于降低单次 Prefill 对延迟的影响,但它并不提高硬件利用率。在本次评测“侧重高吞吐、并行请求充足”的条件下,Prefill 拆分反而带来调度开销,降低整体 TPS。因此我们选择完全关闭 Chunked Prefill,吞吐量得到提升。KV Cache 前缀缓存 + 输入截断针对赛题大量重复 System Prompt,我们引入 Prefix Cache:相同前缀自动复用 KV Cache,免去重复计算。严格控制输入长度,避免少量长尾请求拖慢整个 Batch。五、效果验证与最终成绩通过“算法优化 → 架构创新 → 底层算子融合”的三级联动,我们实现了最终性能突破:吞吐性能: B 榜达到 707 tokens/s,排名第一。输出质量: 在严格格式约束下,模型保持精度且无冗余废话。关键经验:性能优化必须坚持 算法—系统—硬件协同设计(Co-Design),任何单一层面的调优都难以实现全局最优。结语技术优化永无止境。本次比赛中,感谢老师的指导、队友的投入,以及华为云成熟的算力基础与 CANN 生态。未来,我们将继续探索 NPU 推理优化的更多可能,为大模型的真实应用场景带来更高效的系统性能。
  • [热门活动] 【赛后分享】从赛题到落地:一次轻量化推理大模型优化与交通防灾应用的赛后复盘
    这次参赛是一段“以赛代练、以练促研”的高强度旅程。我们团队在华为昇腾团队与“挑战杯”联合设立的 LLM 推理强化与性能优化赛道中,围绕“轻量化 Qwen 模型的能力提升 + Ascend-SNT9b 端侧高效推理”这一核心目标展开攻关。赛题不仅考察模型在逻辑推理、数学计算、代码生成等任务上的准确性,也对推理吞吐、时延和能效提出了硬指标,要求真正面向端侧可用、可落地的优化方案。一、为何参赛:真实需求牵引的技术命题参赛动机来自两个维度的驱动:其一是赛题的前沿性。 Ascend-SNT9b + CANN + ModelArts 的全栈国产算力环境,让我们有机会在“软硬协同”的真实链路里磨炼大模型推理优化能力。其二是场景的迫切性。 广西等地山地丘陵地形复杂,自然灾害(如山体滑坡、路面塌陷)与交通运行风险高度耦合,边缘侧需要具备“预测更准、推理更快、模型更轻”的行业模型来支撑防灾减灾与交通调度。我们希望把赛题能力迁移到交通防灾预测与预警中,真正让模型走出 benchmark 走进现实。二、如何备赛:从基座、数据到工程环境的系统化准备备赛阶段我们做了三件关键事:基准模型选择在模型规模 ≤3B、必须兼容 Ascend+CANN 推理的约束下,我们评估了多种轻量模型,最终选定 Qwen2.5-3B-Instruct 作为基座。它在数学、代码与通用推理上具备较强先验能力,同时工程适配成本低,是后续优化的坚实起点。高质量指令数据集构建围绕赛题任务分布(数学/代码/选择/通用生成),我们构建了百万级指令微调数据,目标是:覆盖足量推理样本,提升“会推理、推得对”;保持难度梯度与格式一致性,支撑端侧对齐训练;形成可复用的数据生产管线。工程环境与评测闭环我们在 ModelArts 上搭建训练与评测流水线:统一版本、固定随机种子、记录每轮 ablation 与日志,让每一次参数调整都能“可回溯、可解释”。这一点在后期冲刺时尤为关键。三、技术破局:三条主线协同优化赛题中我们沿“对齐能力 → 加速推理 → 压缩部署”三条主线逐层推进,最终形成了相互支撑的组合拳。1)LoRA 任务适配:先把能力“对齐到赛题上”赛题对输出格式与推理精度要求严格。我们采用 LoRA 微调:冻结基座权重,只在 Transformer 注意力层注入低秩可训练矩阵更新,从而以极低的算力成本完成任务对齐。结果上,模型在 mmlu_test 等推理评测上整体精度实现稳定提升,且未显著牺牲通用能力。2)算子级优化:让推理真正“跑得快”端侧推理的瓶颈往往在注意力计算。我们在 Ascend 环境下使用 CANN 提供的 FlashAttention 算子替换原 Attention 实现,显著降低注意力时间开销,推理延迟和吞吐表现得到肉眼可见的改善。这一步让我们深刻体会到:大模型优化不是单纯“改网络”,更是“算子-图编译-硬件”的深度协同。3)4-bit 量化:把模型“压到边缘可用”在性能冲刺的同时,我们面向显存与端侧功耗约束,使用 MindSpore 对模型执行 4bit 权重量化(配合动态激活量化)。量化后的模型体积、显存占用与推理耗时显著下降,为后续交通边缘设备部署提供了现实可能。四、结果之外的收获:能力、方法与心态三重成长能力层面我们从“会训模型”走向“会做推理系统”。LoRA、FlashAttention、4-bit 量化这三类技术分别对应“对齐、加速、压缩”三大端侧挑战,构成了相对完整的轻量化推理优化谱系。方法层面比赛把我们从“经验调参”推向“实验科学”:用 ablation 说话;用日志追因;用端到端链路验证改动是否真的有效。这套方法论可迁移到我们今后的交通行业模型与端云协同研究中。心态层面冲刺阶段我们也经历过指标卡住、方向摇摆的时刻。最终靠的是团队互相信任、快速复盘、以及把“问题拆小、逐个击穿”的工程心态。赛后回看,这段抗压与协作的过程同样珍贵。五、面向落地:从赛题能力到交通防灾预警我们在路演中展示了赛题能力向交通防灾的迁移设想:将模型强化后的数学/逻辑推理能力用于 山体滑坡预测、道路车流预测;融合地质、气象水文与工程结构等多源知识,实现面向广西灾害的主动式预测预警。与传统仿真或静态行业模型相比,大模型的优势在于“理解+推理+生成”一体化,从而支撑更实时、更智能的应急响应。六、致谢与展望感谢指导老师的路线把关与关键建议,也感谢队友在数据构建、工程适配与优化实验中的高密度协作;同时感谢华为昇腾与 ModelArts 平台提供的算力与训练支持、专家直播和答疑资源,让我们能在真实国产算力链路上完成一次“从训练到推理再到部署”的全流程实践。未来我们会继续沿着两条路线推进:技术上:进一步做软硬协同优化与端云协同调度,让轻量模型在边缘端长期稳定运行;应用上:把本次优化后的模型融入广西公路交通防灾系统,形成可解释、可部署、可迭代的行业大模型能力底座。这场比赛结束了,但它带来的技术视野、工程方法和落地信念,会继续成为我们下一个研究与项目的起点。
  • [热门活动] 「赛后点亮星光,分享铸就未来」技术征文活动,赢取机械背光键盘等好礼!
    ✨活动背景与宗旨祝贺各位选手圆满完赛!赛场上的奇思妙想与卓越技术,共同呈现了一场精彩纷呈的技术盛宴。赛事虽已落幕,思考与成长永不止步。每一行代码都蕴含着独特思路,每一次调试都沉淀为宝贵经验。为延续这份技术热情,共建共享共进的开发者社区,我们正式启动赛后征文活动。我们相信,个人的经验是火花,众人的分享可汇成照亮前路的星光。诚邀您留下技术干货、备赛心得与真诚建议,为未来的开发者点亮引路明灯,共同滋养我们的开发者技术生态。✨活动主题我们诚挚地邀请您,围绕但不限于以下方向,分享您的故事:技术干货深挖掘:分享您在比赛中解决某个棘手技术难题的思路、算法优化技巧、架构设计心得或使用的炫酷工具/框架。备赛心路全记录:回顾您的备赛历程,如何平衡学业与备赛?有哪些高效的学习方法和资源推荐?心态上是如何调整的?赛事体验与建言:谈谈您对本次赛事组织、赛题设置、平台体验的感受,并提出您宝贵的改进建议,帮助我们做得更好。致未来选手的话:作为一名“过来人”,您最想对下一届的学弟学妹们说些什么?有哪些“避坑”指南或“必胜”秘诀?✨参与对象揭榜挂帅华为赛道获奖团队✨活动时间征文期:即日起至2025年12月7日评审与公示期:征文结束后10个工作日内。✨参与方式在 [挑战杯揭榜挂帅华为赛道-大赛官方论坛-热门活动分享] 以发帖形式参与。帖子标题格式:【赛后分享】+ 自定义标题 (例如:【赛后分享】我是如何用XX算法实现性能突破的】)。论坛链接:cid:link_0🎁奖励机制(重磅激励!)奖项数量奖品“技术之光”头奖8名机械背光键盘“经验之谈”优秀奖10名华为云键盘“积极参与”奖 (若干)若干所有按要求完成投稿的选手,都将获得官方定制的赛事礼品一份(如数据收纳包/折叠双肩包/公牛插座等,仓库随机发送其一)        ✨评选标准内容质量 (50%):技术深度、逻辑清晰度、实用性;分享价值 (30%):对后来者的指导与启发意义;互动热度 (20%):帖子在社区内的回复与讨论情况。✨作品要求作品必须为原创首发,不得抄袭;内容需积极向上,与技术、赛事或开发者生态相关;字数建议不少于800字,图文并茂更佳(也可参考链接以下附件征文模版参考)。 🚀🚀你们不仅是比赛的参与者,更是这个技术社区的建设者。您的每一次分享,都可能成为他人前行路上的关键一步。让我们携手,将短暂的比赛,延伸为长久的影响力。期待在论坛中,读到您独一无二的精彩故事! 
  • [技术干货] 【学习资源指南】昇腾AI算法挑战赛进阶赛
    【直播干货】第二期:核心算子如何优化?专家带你深度解析   课程链接第一期:使用华为开发者空间Versatile一键快速构建 AI Agent  课程链接 【技术文档及学习课程支持】为助力参赛选手高效备赛,大赛官网全面提供与赛题紧密关联的技术学习资源与体系化课程,帮助参赛选手快速构建知识体系、提升实战能力。以下为昇腾计算技术相关核心学习内容:基础与前置学习Ascend C算子编程和C++基础:课程链接算子开发课程Ascend C算子开发(入门):课程链接Ascend C算子开发(进阶):课程链接Ascend C算子开发(高级):课程链接算子调试及优化Ascend C算子编程常见调试调优方法:课程链接赛题参考样例代码matmul算子高阶实现:代码链接matmul算子低阶实现:代码链接matmul+leakyrelu融合算子:代码链接reduce算子实现:代码链接broadcast算子实现:代码链接
  • [活动公告] 2025开放原子开发者大会——CANN异构计算专题分论坛
     扫码进群即可获取免费报名券和午餐券 
  • [大赛资讯] 【终审获奖名单】“挑战杯” 丨 2025年度中国青年“揭榜挂帅”擂台赛·华为赛道
    【获奖名单】序号项目编号学校团队名称作品名称奖项1480719上海交通大学全都对队基于昇腾NPU的训推一体加速优化方案擂主(特等奖第一名)2514025暨南大学想去研究大模型智模昇算——基于全自主技术栈软硬协同的大模型系统调优方案特等奖3474858杭州电子科技大学CEATRG推理大模型的训练调优与性能加速特等奖4512717哈尔滨工业大学纳算力克大工坊面向昇腾平台的大语言模型推理调优与性能加速实践一等奖5515501北京邮电大学BUPT-ParCIS推理大模型的训练调优与性能加速的协同优化一等奖6473176华中科技大学二进制萝卜培育中心大模型参数高效微调与推理引擎加速一等奖7518313淮阴工学院智在必得基于Ascend的端到端推理优化大模型方案一等奖8480007哈尔滨医科大学璃月医科大学孤云阁校区基于PPO+华为昇腾的推理模型加速系统二等奖9475128华南师范大学试试推理大模型的训练调优与性能加速创新方案二等奖10474329华东师范大学ECNU_ELRM基于国产化推理大模型高效训推技术二等奖11512943西安交通大学西北智联推理大模型的训练调优与性能加速助力全栈自主 AI二等奖12511717湖北工业大学TEMP基于全栈自主AI的大模型训练调优与应用二等奖13471760华中科技大学拳头花可火基于GRPO强化学习,知识蒸馏和多算子融合的推理大模型综合调优与加速技术二等奖14519134复旦大学CodeWisdomAdaMind三等奖15479466中国计量大学智枢拓界量衡昇算:赋能极致推理的大模型加速引擎三等奖16513186天津理工大学重生之我在昇腾摸鱼基于AscendC加速大模型推理三等奖17472861中国科学技术大学点子王面向自主大模型推理增强的训练调优与性能加速方案三等奖18526004桂林电子科技大学Create推理大模型的训练调优与性能加速助力全栈自主 AI三等奖19517087西北工业大学NPU-IIL-AscendMindAscendMind:基于昇腾AI平台的轻量化推理优化模型三等奖20473984台州科技职业学院永宁永胜基于知识蒸馏的大模型训练调优和性能加速三等奖21470775北京邮电大学bupt735基于Qwen的电子电路实验虚拟助教三等奖22508583桂林电子科技大学ken推理大模型的训练调优与性能加速助力全栈自主AI优胜奖23508208同济大学三角矩阵基于华为全栈AI技术生态的推理大模型性能优化研究优胜奖24529681桂林电子科技大学好想要MatebookFold队基于华为AI技术的推理大模型的训练调优与性能加速优胜奖25521477武汉船舶职业技术学院破晓者推理大模型的训练调优与性能加速助力全栈自主AI优胜奖26506591南昌大学马桶蹲累了基于昇腾CANN的轻量级大模型推理增强与性能加速研究优胜奖27503585福州外语外贸学院昇腾芯链昇腾芯链:轻量级推理模型的蒸馏优化与端侧加速优胜奖28473846广东机电职业技术学院昇腾智推大模型昇腾智推大模型优胜奖29471801广东石油化工学院[object Object]推理大模型的训练调优与性能加速助力全 栈自主 AI 方案优胜奖30524083华东理工大学华东理工大学AIMC实验室面向全栈自主AI的大规模预训练模型训练调优与推理加速方法研究优胜奖31518595桂林电子科技大学这对吗推理大模型的训练调优与性能加速助力全栈自主AI优胜奖32526548桂林理工大学RookieRush基于昇腾 AI 的轻量级推理大模型训练调优与性能加速方案优胜奖33518067华东师范大学lab308推理大模型的训练调优与性能加速助力全栈自主AI优胜奖34524572中国矿业大学徐海学院远帆“推理大模型的训练调优与性能加速助力全栈自主 AI”优胜奖备注:2025年10月20日至2025年11月20日为拟授奖作品公示期。
  • [大赛资讯] 【直播回放】昇腾AI算法挑战赛进阶赛:华为算子专家王老师深度解析Matmul、WholeReduceSum等核心算子原理与优化,助您冲刺排名!
    直播回放链接:cid:link_0  
  • [技术干货] Ascend310部署Qwen-VL-7B实现吸烟动作识别
    Ascend310部署Qwen-VL-7B实现吸烟动作识别OrangePi AI Studio Pro是基于2个昇腾310P处理器的新一代高性能推理解析卡,提供基础通用算力+超强AI算力,整合了训练和推理的全部底层软件栈,实现训推一体。其中AI半精度FP16算力约为176TFLOPS,整数Int8精度可达352TOPS,本文将带领大家在Ascend 310P上部署Qwen2.5-VL-7B多模态理解大模型实现吸烟动作的识别。一、环境配置我们在OrangePi AI Stuido上使用Docker容器部署MindIE:docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.1.RC1-300I-Duo-py311-openeuler24.03-ltsroot@orangepi:~# docker images REPOSITORY TAG IMAGE ID CREATED SIZE swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie 2.1.RC1-300I-Duo-py311-openeuler24.03-lts 0574b8d4403f 3 months ago 20.4GB langgenius/dify-web 1.0.1 b2b7363571c2 8 months ago 475MB langgenius/dify-api 1.0.1 3dd892f50a2d 8 months ago 2.14GB langgenius/dify-plugin-daemon 0.0.4-local 3f180f39bfbe 8 months ago 1.35GB ubuntu/squid latest dae40da440fe 8 months ago 243MB postgres 15-alpine afbf3abf6aeb 8 months ago 273MB nginx latest b52e0b094bc0 9 months ago 192MB swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie 1.0.0-300I-Duo-py311-openeuler24.03-lts 74a5b9615370 10 months ago 17.5GB redis 6-alpine 6dd588768b9b 10 months ago 30.2MB langgenius/dify-sandbox 0.2.10 4328059557e8 13 months ago 567MB semitechnologies/weaviate 1.19.0 8ec9f084ab23 2 years ago 52.5MB之后创建一个名为start-docker.sh的启动脚本,内容如下:NAME=$1 if [ $# -ne 1 ]; then echo "warning: need input container name.Use default: mindie" NAME=mindie fi docker run --name ${NAME} -it -d --net=host --shm-size=500g \ --privileged=true \ -w /usr/local/Ascend/atb-models \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ --entrypoint=bash \ -v /models:/models \ -v /data:/data \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/sbin:/usr/local/sbin \ -v /home:/home \ -v /tmp:/tmp \ -v /usr/share/zoneinfo/Asia/Shanghai:/etc/localtime \ -e http_proxy=$http_proxy \ -e https_proxy=$https_proxy \ -e "PATH=/usr/local/python3.11.6/bin:$PATH" \ swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.1.RC1-300I-Duo-py311-openeuler24.03-ltsbash start-docker.sh启动容器后,我们需要替换几个文件并安装Ascend-cann-nnal软件包:root@orangepi:~# docker exec -it mindie bash Welcome to 5.15.0-126-generic System information as of time: Sat Nov 15 22:06:48 CST 2025 System load: 1.87 Memory used: 6.3% Swap used: 0.0% Usage On: 33% Users online: 0 [root@orangepi atb-models]# cd /usr/local/Ascend/ascend-toolkit/8.2.RC1/lib64/ [root@orangepi lib64]# ls /data/fix_openeuler_docker/fixhccl/8.2hccl/ libhccl.so libhccl_alg.so libhccl_heterog.so libhccl_plf.so [root@orangepi lib64]# cp /data/fix_openeuler_docker/fixhccl/8.2hccl/* ./ cp: overwrite './libhccl.so'? cp: overwrite './libhccl_alg.so'? cp: overwrite './libhccl_heterog.so'? cp: overwrite './libhccl_plf.so'? [root@orangepi lib64]# source /usr/local/Ascend/ascend-toolkit/set_env.sh [root@orangepi lib64]# chmod +x /data/fix_openeuler_docker/Ascend-cann-nnal/Ascend-cann-nnal_8.3.RC1_linux-x86_64.run [root@orangepi lib64]# /data/fix_openeuler_docker/Ascend-cann-nnal/Ascend-cann-nnal_8.3.RC1_linux-x86_64.run --install --quiet [NNAL] [20251115-22:41:45] [INFO] LogFile:/var/log/ascend_seclog/ascend_nnal_install.log [NNAL] [20251115-22:41:45] [INFO] Ascend-cann-atb_8.3.RC1_linux-x86_64.run --install --install-path=/usr/local/Ascend/nnal --install-for-all --quiet --nox11 start WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv [NNAL] [20251115-22:41:58] [INFO] Ascend-cann-atb_8.3.RC1_linux-x86_64.run --install --install-path=/usr/local/Ascend/nnal --install-for-all --quiet --nox11 install success [NNAL] [20251115-22:41:58] [INFO] Ascend-cann-SIP_8.3.RC1_linux-x86_64.run --install --install-path=/usr/local/Ascend/nnal --install-for-all --quiet --nox11 start [NNAL] [20251115-22:41:59] [INFO] Ascend-cann-SIP_8.3.RC1_linux-x86_64.run --install --install-path=/usr/local/Ascend/nnal --install-for-all --quiet --nox11 install success [NNAL] [20251115-22:41:59] [INFO] Ascend-cann-nnal_8.3.RC1_linux-x86_64.run install success Warning!!! If the environment variables of atb and asdsip are set at the same time, unexpected consequences will occur. Import the corresponding environment variables based on the usage scenarios: atb for large model scenarios, asdsip for embedded scenarios. Please make sure that the environment variables have been configured. If you want to use atb module: - To take effect for current user, you can exec command below: source /usr/local/Ascend/nnal/atb/set_env.sh or add "source /usr/local/Ascend/nnal/atb/set_env.sh" to ~/.bashrc. If you want to use asdsip module: - To take effect for current user, you can exec command below: source /usr/local/Ascend/nnal/asdsip/set_env.sh or add "source /usr/local/Ascend/nnal/asdsip/set_env.sh" to ~/.bashrc. [root@orangepi lib64]# cat /usr/local/Ascend/nnal/atb/latest/version.info Ascend-cann-atb : 8.3.RC1 Ascend-cann-atb Version : 8.3.RC1.B106 Platform : x86_64 branch : 8.3.rc1-0702 commit id : 16004f23040e0dcdd3cf0c64ecf36622487038ba修改推理使用的逻辑NPU核心为0,1,测试多模态理解大模型:Qwen2.5-VL-7B-Instruct:运行结果表明,Qwen2.5-VL-7B-Instruct在2 x Ascned 310P上推理平均每秒可以输出20个tokens,同时准确理解画面中的人物信息和行为动作。[root@orangepi atb-models]# bash examples/models/qwen2_vl/run_pa.sh --model_path /models/Qwen2.5-VL-7B-Instruct/ --input_image /root/pic/test.jpg [2025-11-15 22:12:49,663] torch.distributed.run: [WARNING] [2025-11-15 22:12:49,663] torch.distributed.run: [WARNING] ***************************************** [2025-11-15 22:12:49,663] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. [2025-11-15 22:12:49,663] torch.distributed.run: [WARNING] ***************************************** /usr/local/lib64/python3.11/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source? warn( /usr/local/lib64/python3.11/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source? warn( 2025-11-15 22:12:53.250 7934 LLM log default format: [yyyy-mm-dd hh:mm:ss.uuuuuu] [processid] [threadid] [llmmodels] [loglevel] [file:line] [status code] msg 2025-11-15 22:12:53.250 7933 LLM log default format: [yyyy-mm-dd hh:mm:ss.uuuuuu] [processid] [threadid] [llmmodels] [loglevel] [file:line] [status code] msg [2025-11-15 22:12:53.250] [7934] [139886327420160] [llmmodels] [WARN] [model_factory.cpp:28] deepseekV2_DecoderModel model already exists, but the duplication doesn't matter. [2025-11-15 22:12:53.250] [7933] [139649439929600] [llmmodels] [WARN] [model_factory.cpp:28] deepseekV2_DecoderModel model already exists, but the duplication doesn't matter. [2025-11-15 22:12:53.250] [7934] [139886327420160] [llmmodels] [WARN] [model_factory.cpp:28] deepseekV2_DecoderModel model already exists, but the duplication doesn't matter. [2025-11-15 22:12:53.250] [7933] [139649439929600] [llmmodels] [WARN] [model_factory.cpp:28] deepseekV2_DecoderModel model already exists, but the duplication doesn't matter. [2025-11-15 22:12:53.250] [7934] [139886327420160] [llmmodels] [WARN] [model_factory.cpp:28] llama_LlamaDecoderModel model already exists, but the duplication doesn't matter. [2025-11-15 22:12:53.250] [7933] [139649439929600] [llmmodels] [WARN] [model_factory.cpp:28] llama_LlamaDecoderModel model already exists, but the duplication doesn't matter. [2025-11-15 22:12:55,335] [7934] [139886327420160] [llmmodels] [INFO] [cpu_binding.py-254] : rank_id: 1, device_id: 1, numa_id: 0, shard_devices: [0, 1], cpus: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15] [2025-11-15 22:12:55,336] [7934] [139886327420160] [llmmodels] [INFO] [cpu_binding.py-280] : process 7934, new_affinity is [8, 9, 10, 11, 12, 13, 14, 15], cpu count 8 [2025-11-15 22:12:55,356] [7933] [139649439929600] [llmmodels] [INFO] [cpu_binding.py-254] : rank_id: 0, device_id: 0, numa_id: 0, shard_devices: [0, 1], cpus: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15] [2025-11-15 22:12:55,357] [7933] [139649439929600] [llmmodels] [INFO] [cpu_binding.py-280] : process 7933, new_affinity is [0, 1, 2, 3, 4, 5, 6, 7], cpu count 8 [2025-11-15 22:12:56,032] [7933] [139649439929600] [llmmodels] [INFO] [model_runner.py-156] : model_runner.quantize: None, model_runner.kv_quant_type: None, model_runner.fa_quant_type: None, model_runner.dtype: torch.float16 [2025-11-15 22:13:01,826] [7933] [139649439929600] [llmmodels] [INFO] [dist.py-81] : initialize_distributed has been Set [2025-11-15 22:13:01,827] [7933] [139649439929600] [llmmodels] [INFO] [model_runner.py-187] : init tokenizer done Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`. [2025-11-15 22:13:02,070] [7934] [139886327420160] [llmmodels] [INFO] [dist.py-81] : initialize_distributed has been Set Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`. [W InferFormat.cpp:62] Warning: Cannot create tensor with NZ format while dim < 2, tensor will be created with ND format. (function operator()) [W InferFormat.cpp:62] Warning: Cannot create tensor with NZ format while dim < 2, tensor will be created with ND format. (function operator()) [2025-11-15 22:13:08,435] [7933] [139649439929600] [llmmodels] [INFO] [flash_causal_qwen2.py-153] : >>>> qwen_QwenDecoderModel is called. [2025-11-15 22:13:08,526] [7934] [139886327420160] [llmmodels] [INFO] [flash_causal_qwen2.py-153] : >>>> qwen_QwenDecoderModel is called. [2025-11-15 22:13:16.666] [7933] [139649439929600] [llmmodels] [WARN] [operation_factory.cpp:42] OperationName: TransdataOperation not find in operation factory map [2025-11-15 22:13:16.698] [7934] [139886327420160] [llmmodels] [WARN] [operation_factory.cpp:42] OperationName: TransdataOperation not find in operation factory map [2025-11-15 22:13:22,379] [7933] [139649439929600] [llmmodels] [INFO] [model_runner.py-282] : model: FlashQwen2vlForCausalLM( (rotary_embedding): PositionRotaryEmbedding() (attn_mask): AttentionMask() (vision_tower): Qwen25VisionTransformerPretrainedModelATB( (encoder): Qwen25VLVisionEncoderATB( (layers): ModuleList( (0-31): 32 x Qwen25VLVisionLayerATB( (attn): VisionAttention( (qkv): TensorParallelColumnLinear( (linear): FastLinear() ) (proj): TensorParallelRowLinear( (linear): FastLinear() ) ) (mlp): VisionMlp( (gate_up_proj): TensorParallelColumnLinear( (linear): FastLinear() ) (down_proj): TensorParallelRowLinear( (linear): FastLinear() ) ) (norm1): BaseRMSNorm() (norm2): BaseRMSNorm() ) ) (patch_embed): FastPatchEmbed( (proj): TensorReplicatedLinear( (linear): FastLinear() ) ) (patch_merger): PatchMerger( (patch_merger_mlp_0): TensorParallelColumnLinear( (linear): FastLinear() ) (patch_merger_mlp_2): TensorParallelRowLinear( (linear): FastLinear() ) (patch_merger_ln_q): BaseRMSNorm() ) ) (rotary_pos_emb): VisionRotaryEmbedding() ) (language_model): FlashQwen2UsingMROPEForCausalLM( (rotary_embedding): PositionRotaryEmbedding() (attn_mask): AttentionMask() (transformer): FlashQwenModel( (wte): TensorEmbeddingWithoutChecking() (h): ModuleList( (0-27): 28 x FlashQwenLayer( (attn): FlashQwenAttention( (rotary_emb): PositionRotaryEmbedding() (c_attn): TensorParallelColumnLinear( (linear): FastLinear() ) (c_proj): TensorParallelRowLinear( (linear): FastLinear() ) ) (mlp): QwenMLP( (act): SiLU() (w2_w1): TensorParallelColumnLinear( (linear): FastLinear() ) (c_proj): TensorParallelRowLinear( (linear): FastLinear() ) ) (ln_1): QwenRMSNorm() (ln_2): QwenRMSNorm() ) ) (ln_f): QwenRMSNorm() ) (lm_head): TensorParallelHead( (linear): FastLinear() ) ) ) [2025-11-15 22:13:24,268] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-134] : hbm_capacity(GB): 87.5078125, init_memory(GB): 11.376015624962747 [2025-11-15 22:13:24,789] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-342] : pa_runner: PARunner(model_path=/models/Qwen2.5-VL-7B-Instruct/, input_text=请用超过500个字详细说明图片的内容,并仔细判断画面中的人物是否有吸烟动作。, max_position_embeddings=None, max_input_length=16384, max_output_length=1024, max_prefill_tokens=-1, load_tokenizer=True, enable_atb_torch=False, max_prefill_batch_size=None, max_batch_size=1, dtype=torch.float16, block_size=128, model_config=ModelConfig(num_heads=14, num_kv_heads=2, num_kv_heads_origin=4, head_size=128, k_head_size=128, v_head_size=128, num_layers=28, device=npu:0, dtype=torch.float16, soc_info=NPUSocInfo(soc_name='', soc_version=200, need_nz=True, matmul_nd_nz=False), kv_quant_type=None, fa_quant_type=None, mapping=Mapping(world_size=2, rank=0, num_nodes=1,pp_rank=0, pp_groups=[[0], [1]], micro_batch_size=1, attn_dp_groups=[[0], [1]], attn_tp_groups=[[0, 1]], attn_inner_sp_groups=[[0], [1]], attn_cp_groups=[[0], [1]], attn_o_proj_tp_groups=[[0], [1]], mlp_tp_groups=[[0, 1]], moe_ep_groups=[[0], [1]], moe_tp_groups=[[0, 1]]), cla_share_factor=1, model_type=qwen2_5_vl, enable_nz=False), max_memory=93960798208, [2025-11-15 22:13:24,794] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-122] : ---------------Begin warm_up--------------- [2025-11-15 22:13:24,794] [7933] [139649439929600] [llmmodels] [INFO] [cache.py-154] : kv cache will allocate 0.46484375GB memory [2025-11-15 22:13:24,821] [7934] [139886327420160] [llmmodels] [INFO] [cache.py-154] : kv cache will allocate 0.46484375GB memory [2025-11-15 22:13:24,827] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1139] : ------total req num: 1, infer start-------- [2025-11-15 22:13:26,002] [7934] [139886327420160] [llmmodels] [INFO] [flash_causal_qwen2.py-680] : <<<<<<<after transdata k_caches[0].shape=torch.Size([136, 16, 128, 16]) [2025-11-15 22:13:26,023] [7933] [139649439929600] [llmmodels] [INFO] [flash_causal_qwen2.py-676] : <<<<<<< ori k_caches[0].shape=torch.Size([136, 16, 128, 16]) [2025-11-15 22:13:26,023] [7933] [139649439929600] [llmmodels] [INFO] [flash_causal_qwen2.py-680] : <<<<<<<after transdata k_caches[0].shape=torch.Size([136, 16, 128, 16]) [2025-11-15 22:13:26,024] [7933] [139649439929600] [llmmodels] [INFO] [flash_causal_qwen2.py-705] : >>>>>>id of kcache is 139645634198608 id of vcache is 139645634198320 [2025-11-15 22:13:34,363] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1294] : Prefill time: 9476.590633392334ms, Prefill average time: 9476.590633392334ms, Decode token time: 54.94809150695801ms, E2E time: 9531.538724899292ms [2025-11-15 22:13:34,363] [7934] [139886327420160] [llmmodels] [INFO] [generate.py-1294] : Prefill time: 9452.020645141602ms, Prefill average time: 9452.020645141602ms, Decode token time: 54.654598236083984ms, E2E time: 9506.675243377686ms [2025-11-15 22:13:34,366] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1326] : -------------------performance dumped------------------------ [2025-11-15 22:13:34,371] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1329] : | batch_size | input_seq_len | output_seq_len | e2e_time(ms) | prefill_time(ms) | decoder_token_time(ms) | prefill_count | prefill_average_time(ms) | |-------------:|----------------:|-----------------:|---------------:|-------------------:|-------------------------:|----------------:|---------------------------:| | 1 | 16384 | 2 | 9531.54 | 9476.59 | 54.95 | 1 | 9476.59 | /usr/local/lib64/python3.11/site-packages/torchvision/transforms/functional.py:1603: UserWarning: The default value of the antialias parameter of all the resizing transforms (Resize(), RandomResizedCrop(), etc.) will change from None to True in v0.17, in order to be consistent across the PIL and Tensor backends. To suppress this warning, directly pass antialias=True (recommended, future default), antialias=None (current default, which means False for Tensors and True for PIL), or antialias=False (only works on Tensors - PIL will still use antialiasing). This also applies if you are using the inference transforms from the models weights: update the call to weights.transforms(antialias=True). warnings.warn( [2025-11-15 22:13:35,307] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-148] : warmup_memory(GB): 15.75 [2025-11-15 22:13:35,307] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-153] : ---------------End warm_up--------------- /usr/local/lib64/python3.11/site-packages/torchvision/transforms/functional.py:1603: UserWarning: The default value of the antialias parameter of all the resizing transforms (Resize(), RandomResizedCrop(), etc.) will change from None to True in v0.17, in order to be consistent across the PIL and Tensor backends. To suppress this warning, directly pass antialias=True (recommended, future default), antialias=None (current default, which means False for Tensors and True for PIL), or antialias=False (only works on Tensors - PIL will still use antialiasing). This also applies if you are using the inference transforms from the models weights: update the call to weights.transforms(antialias=True). warnings.warn( [2025-11-15 22:13:35,363] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1139] : ------total req num: 1, infer start-------- [2025-11-15 22:13:50,021] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1294] : Prefill time: 1004.0028095245361ms, Prefill average time: 1004.0028095245361ms, Decode token time: 13.301290491575836ms, E2E time: 14611.222982406616ms [2025-11-15 22:13:50,021] [7934] [139886327420160] [llmmodels] [INFO] [generate.py-1294] : Prefill time: 1067.9974555969238ms, Prefill average time: 1067.9974555969238ms, Decode token time: 13.300292536193908ms, E2E time: 14674.196720123291ms [2025-11-15 22:13:50,025] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1326] : -------------------performance dumped------------------------ [2025-11-15 22:13:50,028] [7933] [139649439929600] [llmmodels] [INFO] [generate.py-1329] : | batch_size | input_seq_len | output_seq_len | e2e_time(ms) | prefill_time(ms) | decoder_token_time(ms) | prefill_count | prefill_average_time(ms) | |-------------:|----------------:|-----------------:|---------------:|-------------------:|-------------------------:|----------------:|---------------------------:| | 1 | 1675 | 1024 | 14611.2 | 1004 | 13.3 | 1 | 1004 | [2025-11-15 22:13:50,035] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-385] : Question[0]: [{'image': '/root/pic/test.jpg'}, {'text': '请用超过500个字详细说明图片的内容,并仔细判断画面中的人物是否有吸烟动作。'}] [2025-11-15 22:13:50,035] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-386] : Answer[0]: 这张图片展示了一个无人机航拍的场景,画面中可以看到两名工人站在一个雪地或冰面上。他们穿着橙色的安全背心和红色的安全帽,显得非常醒目。背景中可以看到一些雪地和一些金属结构,可能是桥梁或工业设施的一部分。 从图片的细节来看,画面右侧的工人右手放在嘴边,似乎在吸烟。他的姿势和动作与吸烟者的典型姿势相符。然而,由于图片的分辨率和角度限制,无法完全确定这个动作是否真实发生。如果要准确判断,可能需要更多的视频片段或更清晰的图像。 从无人机航拍的角度来看,这个场景可能是在进行某种工业或建筑项目的检查或监控。两名工人可能正在进行现场检查或讨论工作事宜。雪地和金属结构表明这可能是一个寒冷的冬季,或者是一个寒冷的气候区域。 无人机航拍技术在工业和建筑领域中非常常见,因为它可以提供高空视角,帮助工程师和管理人员更好地了解现场情况。这种技术不仅可以节省时间和成本,还可以提高工作效率和安全性。在进行航拍时,确保遵守当地的法律法规和安全规定是非常重要的。 总的来说,这张图片展示了一个无人机航拍的场景,画面中两名工人站在雪地上,其中一人似乎在吸烟。虽然无法完全确定这个动作是否真实发生,但根据他们的姿势和动作,可以合理推测这个动作的存在。 [2025-11-15 22:13:50,035] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-387] : Generate[0] token num: 282 [2025-11-15 22:13:50,035] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-389] : Latency(s): 14.721353530883789 [2025-11-15 22:13:50,035] [7933] [139649439929600] [llmmodels] [INFO] [run_pa.py-390] : Throughput(tokens/s): 19.15584728050956 本文详细介绍了在OrangePi AI Studio上使用Docker容器部署MindIE环境并运行Qwen2.5-VL-7B-Instruct多模态大模型实现吸烟动作识别的完整过程,验证了在Ascned 310p设备上运行多模态理解大模型的可靠性。
  • [活动公告] 11月15日,CANN Meetup 北京站,邀您共赴一场技术盛宴
    11月15日,CANN Meetup 北京站,邀您共赴一场技术盛宴
  • [问题求助] 获取不了昇腾310模组序列号?
    npu-smi 命令获取不了Serial Number,是缺少什么组件还是其他?root@davinci-mini:/home/HwHiAiUser# npu-smi info -t board -i 0        NPU ID                         : 0        Product Name                   :        Model                          :        Manufacturer                   :        Serial Number                  :        Software Version               : 21.0.3.1        Firmware Version               : 1.79.22.5.220        Board ID                       : 0xbbc        PCB ID                         : NA        BOM ID                         : 0        Chip Count                     : 1        Faulty Chip Count              : 0root@davinci-mini:/home/HwHiAiUser# npu-smi info+------------------------------------------------------------------------------+| npu-smi 21.0.3.1                     Version: 21.0.3.1                       |+-------------------+-----------------+----------------------------------------+| NPU     Name      | Health          | Power(W)          Temp(C)              || Chip    Device    | Bus-Id          | AICore(%)         Memory-Usage(MB)     |+===================+=================+========================================+| 0       310       | OK              | 8.0               51                   || 0       0         | NA              | 0                 3440 / 8192          |+===================+=================+========================================+
  • [问题求助] 代码迁移后报错
    自己写的代码在原本的华为云服务器notebook上运行是可以正常运行的,但是最近在新买的notebook运行报错如图,新买的notebook实例ID是c768c7a7-178f-41b8-86cb-6aaeda31b331,想问一下是新买的notebook哪里出了问题 
  • [技术干货] 昇腾平台的大模型QwQ-32B安装部署
     1. 下载模型权重 安装python环境 conda create -n qwq_model python==3.13.6 conda activate qwq_model pip install modelscope  通过 modelscope SDK下载模型(https://www.modelscope.cn/models/Qwen/QwQ-32B)到制定目录 mkdir -p /usr/local/data/model_list/model/QwQ-32B modelscope download --model Qwen/QwQ-32B --local_dir /usr/local/data/model_list/model/QwQ-32B  2. 部署模型  vim /etc/sysctl.conf  设置 net.ipv4.ip_forward的值为1 source /etc/sysctl.conf  docker pull swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc1-py_3.11-hce_2.0.2503-aarch64-snt9b-20250729103313-3a25129   启动容器 docker run -itd \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \-v /etc/localtime:/etc/localtime \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /etc/ascend_install.info:/etc/ascend_install.info \--device=/dev/davinci_manager \--device=/dev/devmm_svm \--device=/dev/hisi_hdc \-v /var/log/npu/:/usr/slog \-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \-v /sys/fs/cgroup:/sys/fs/cgroup:ro \-v /usr/local/data/model_list/model:/usr/local/data/model_list/model \--net=host \--name vllm-qwen \91c374f329e4 \/bin/bash 来到容器环境 docker exec -it -u ma-user ${container_name} /bin/bashdocker exec -it -u ma-user vllm-qwen /bin/bash设置容器里的参数export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export VLLM_PLUGINS=ascend  # VPC网段# 需用户手动修改,修改方式见下方注意事项VPC_CIDR="192.168.0.0/16" VPC_PREFIX=$(echo "$VPC_CIDR" | cut -d'/' -f1 | cut -d'.' -f1-2)POD_INET_IP=$(ifconfig | grep -oP "(?<=inet\s)$VPC_PREFIX\.\d+\.\d+" | head -n 1)POD_NETWORK_IFNAME=$(ifconfig | grep -B 1 "$POD_INET_IP" | head -n 1 | awk '{print $1}' | sed 's/://')echo "POD_INET_IP: $POD_INET_IP"echo "POD_NETWORK_IFNAME: $POD_NETWORK_IFNAME" # 指定通信网卡export GLOO_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport TP_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport HCCL_SOCKET_IFNAME=$POD_NETWORK_IFNAME# 多机场景下配置export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1 # 开启显存优化export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True# 配置通信算法的编排展开位置在Device侧的AI Vector Core计算单元export HCCL_OP_EXPANSION_MODE=AIV# 指定可使用的卡,按需指定export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7# 指定绑核,按需指定export CPU_AFFINITY_CONF=1export LD_PRELOAD=/usr/local/lib/libjemalloc.so.2:${LD_PRELOAD}# 默认启用 ascend-turbo-graph模式,指定启动插件export VLLM_PLUGINS=ascend_vllm# 如果使用 acl-graph 或者 eager 模式,指定启动插件 # export VLLM_PLUGINS=ascend# 指定vllm后端 v1export VLLM_USE_V1=1# 指定vllm版本export VLLM_VERSION=0.9.0  export USE_MM_ALL_REDUCE_OP=1export MM_ALL_REDUCE_OP_THRESHOLD=256 # 不需要设置以下环境变量unset ENABLE_QWEN_HYPERDRIVE_OPTunset ENABLE_QWEN_MICROBATCHunset ENABLE_PHASE_AWARE_QKVO_QUANTunset DISABLE_QWEN_DP_PROJ   source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash  运行API服务 nohup python -m vllm.entrypoints.openai.api_server \--model /usr/local/data/model_list/model/QwQ-32B \--max-num-seqs=256 \--max-model-len=512 \--max-num-batched-tokens=512 \--tensor-parallel-size=4 \--block-size=128 \--host=192.168.0.127 \--port=18186 \--gpu-memory-utilization=0.95 \--trust-remote-code \--no-enable-prefix-caching \--additional-config='{"ascend_turbo_graph_config": {"enabled": true}, "ascend_scheduler_config": {"enabled": true}}' > QwQ-32B.log 2>&1 & port端口号可以自定义,勿与已经使用的端口号冲突 3. 验证API服务  验证服务 curl http://192.168.0.127:18186/v1/completions \-H "Content-Type: application/json" \-d '{ "model": "/usr/local/data/model_list/model/QwQ-32B", "prompt": "What is moon","max_tokens": 64,"temperature": 0.5 }'       
  • [开发环境] ICT大赛创新赛道赛题一算力获取
    赛题一“基于昇思MindSpore打造AI创新应用”好像是会提供免费算力资源,要通过代金券购买,有人知道代金券在哪里领取吗🧐
  • [问题求助] 华东4昇腾notebook如何动态挂载obs pfs文件系统
    您好我正在notebook配置上手昇腾相关环境,需要一些额外的存储空间来装数据和其他文件,但是我在配置外挂obs的时候遇到了一些问题,还请问这里文档说《选择运行中的Notebook实例,单击实例名称,进入Notebook实例详情页面,在“存储配置”页签,单击“添加数据存储”,设置挂载参数》但是我按照说明点进了notebook详情页但是并没有找到挂载pfs的地方,还请老师指教这个《存储配置》页签在哪里?此外我看北京4,上海1都可以挂载obs,但是没有昇腾算力。还请老师帮助解决。