语言生成_标签_开发者

博客(29)
视频(0)
论坛(47)
云声(28)
代码示例(0)

[技术干货] 阿里除夕开源千问3.5：3970亿参数但只激活170亿，大模型部署成本砍半怎么做到的？

当 AI 落地到了“深水区”：到底是模型不够强、算力太昂贵，还是该换条技术路线了？这两年，大家对大模型已经不再停留在“技术演示多酷炫”，而是越来越现实地问一句：“为什么每次想用个好模型，显卡先罢工？部署成本降不下来，再强的能力也只能看着？”尤其是——明明模型参数已经卷到万亿级，真要放进业务里跑起来，推理速度却慢得让人怀疑人生。答案往往不在某一个“神技”，而是在于模型的底层架构如何平衡能力、效率和成本这三个不可能三角。而阿里在除夕夜甩出的“王炸”——Qwen3.5，直接在这个三角上做了“暴力”重构：总参数3970亿，但每次推理只激活170亿，性能超越万亿参数的Qwen3-Max模型，部署显存占用降低60%，推理吞吐量最高提升19倍。什么意思呢？相当于你养了一个庞大的专家团队，但每次只需要其中几个人干活——知识储备拉满，算力开销打骨折。但问题来了：这么强的模型，拿回来怎么用？是继续调 Prompt、搭 RAG，还是直接上微调？今天我们就借着Qwen3.5这把“尺子”，把这个问题彻底捋清楚。架构层面的“降本增效”，到底是怎么做到的？Qwen3.5这次最让大家感兴趣的不是参数规模，而是它怎么把成本降下来的。先说混合注意力机制。传统Transformer有个固有问题：无论信息重不重要，每个词都要跟上下文里所有词算一遍关联，上下文越长计算量越爆炸。Qwen3.5的做法是——关键信息高精度处理，次要信息低成本带过。在256K超长上下文场景下，推理吞吐量直接飙到19倍。这意味着以前处理100份长文档的时间，现在能处理近2000份。再说极致稀疏MoE。传统模型每次推理必须激活全部参数，参数越多成本越高。Qwen3.5把模型拆成大量专家子网络，每次只激活最相关的170亿参数——3970亿总参数里，激活比例不到5%。大规模参数积累的知识优势被保留，但规模带来的成本负担被卸掉了。还有原生多Token预测。传统模型逐字输出，串行结构限制推理速度。Qwen3.5在训练阶段就学会联合预测多个未来词，从逐字输出变成批量输出，推理速度接近翻倍。这背后还有千问团队去年斩获NeurIPS最佳论文的门控技术，被用在了Qwen3.5里。它像智能开关一样实时控制信息流强度，强化有效信号、抑制噪声干扰，保证大规模训练稳定跑下来。不只是旗舰：三款中型模型，总有一款适合你的“显卡钱包”2月25日，阿里继续开源了三款中等规模模型。我仔细看了下它们的定位，觉得挺有意思：Qwen3.5-122B-A10B：总参数1220亿，激活100亿。适合复杂Agent任务，多步工具调用成功率提升明显。如果你的业务需要模型自己规划步骤、调用工具、处理多轮交互，这款是主力。Qwen3.5-35B-A3B：总参数350亿，激活30亿。中小团队的首选——单卡24G可跑BF16推理，生成速度快。如果你刚起步、想在消费级显卡上跑起来看看效果，从这款入手最合适。基于它的托管模型Qwen3.5-Flash已上线阿里云百炼，每百万Token输入低至0.2元。Qwen3.5-27B：这是千问3.5家族里唯一的稠密模型。为什么要保留稠密？因为MoE在微调时有个“路由器抖动”问题——数据分布和预训练差异较大时，专家路由可能剧烈变化，导致训练不稳定。而27B的稠密架构，对主流微调框架支持非常成熟，垂直领域团队落地的阻力小得多。而且它支持1M上下文、原生多模态，在视觉推理等榜单上甚至超过了上代旗舰Qwen3-VL。有了好模型，怎么判断该走哪条路？回到开头的问题：模型拿回来了，是调 Prompt、搭 RAG，还是直接微调？我们团队跑过不少项目，总结下来一套“先诊断、后开方”的方法。第一步：做个“Prompt梯度测试”。别用一个Prompt打天下。设计一个由浅到深的版本阶梯：版本A只定义角色+简短指令；版本B加3-5条“好答案”作示范；版本C加过程引导；版本D加格式约束。在同一批样本上跑一遍，看准确率有没有一路往上走。如果从A到D，正确率能从50%提到80%甚至更高，说明Prompt工程还有空间。但如果你发现无论怎么加示例、怎么拉长指令，指标就是卡住——这说明靠Prompt已经不够了，是时候思考微调。第二步：确认是“真的不会”，还是“没问到点子上”。有个简单的诊断套路：先问概念，再问实战。比如问“你了解信用卡分期手续费的计算规则吗？”模型能说对——说明知识没缺失。再问“下面是某张信用卡的分期条款，请帮我算出总利息”，结果算错了——问题往往在于任务拆解不够清晰、指令没把约束说具体。这时候优先打磨Prompt，而不是换模型。第三步：做一轮多模型对比。用同一套指令+同一批样本，在不同模型上跑。如果所有模型都表现挣扎，说明任务定义本身有问题，回去梳理业务；如果强模型能做好、目标基座拉胯，说明存在能力gap——这时候你有两个选择：换更强的基座，或者用强模型当“Teacher”做蒸馏微调。RAG：让模型“现查现用”的外脑当你把内网知识库、合同文档接进来，其实就是在做RAG。你可以把RAG想象成一位非常勤奋的外包顾问：它自己不必记住所有东西，但可以随时去翻最新制度、产品手册、历史记录。它的优势很明显：上手快、更新快、有明确溯源。政策一变，下一次回答就能用到最新内容。但短板也很明显：它始终是个“外人”——能找到哪一条合同条款写了什么，却未必理解你们过去在类似条款上是怎么博弈、怎么决策的。Qwen3.5的架构创新恰好放大了RAG的优势：256K超长上下文，可以一次性塞进整本手册+几十个案例；推理吞吐量提升19倍，检索后响应依然飞快；用35B-A3B单卡就能跑，硬件成本打骨折。RAG适合解决“缺知识”和“知识变化快”的问题，让AI变成一个“随时翻档案的外脑”。但要让AI真正带上你公司的“思维方式”，往往还需要别的手段协同。微调：从“懂行”到“懂你”的那一步如果说RAG是外部知识的延伸，那微调更像是把你的业务基因烤进模型本身。用成体系的私域数据去“再教育”模型——历史项目报告、复盘文档、标注过的客户案例、标准话术、风格统一的高质量输出。模型在这个过程中学到的，不只是知识，还有：你们惯用的分析路径、行业特有的专业表达、团队的风险偏好与话语风格。最终得到的是“老员工型AI”：不仅能做“法律问答”，还能“说出你们律所的味道”；不仅能写“财务分析报告”，还能用你团队习惯的结构与逻辑。Qwen3.5对微调格外友好：27B稠密模型专门为微调优化，训练稳定不易发散；MoE系列也可以用LoRA等轻量方案低成本微调。对于很多对隐私和合规敏感的行业，“训练过程和推理全在本地”也是选择微调的重要原因。RAG还是微调？关键是AI和业务“绑定到什么程度”给一个直观的对比视角：更适合优先用RAG的情况：业务知识更新快、变动频繁；需要明确引用来源；主要诉求是“查得对、找得到”。这时候AI更像一个随时查资料的外部顾问。更适合考虑微调的情况：希望AI复刻资深员工的决策模式；已有高质量、可复用的历史成果；在乎输出风格统一、团队经验共享。这时候AI不再只是问答工具，而是把专家经验数字化、规模化复制的载体。RAG和微调不是对立面，而是可叠加的路径：用RAG确保“知识永远是最新的”，用微调把“经验、风格、判断逻辑”烤进模型，再用好的Prompt把两者“调度”起来。Qwen3.5的丰富型号让这种叠加更灵活：知识密集型任务用35B-A3B + RAG，决策型任务用27B微调，复杂Agent用122B-A10B + 微调。从“先能用”到“更好用”：为什么要提前准备一条微调路径？对大多数企业来说，一个健康的迭代节奏可能是：第1阶段：先跑起来——选定基座（比如Qwen3.5-35B-A3B），用Prompt+RAG搭出Demo，跑一轮真实业务，收集问题样本。第2阶段：用评估体系看清问题——自动评测脚本，快速定位哪些是知识缺失、哪些是逻辑问题、哪些是风格不统一。第3阶段：小规模微调试点——把业务方认可的“好答案”转成训练数据，用标准化平台快速试几个版本，确认“确实变好，没有把别的能力搞坏”。第4阶段：微调日常化——新的项目经验不断沉淀，微调从“一次性大工程”变成“持续迭代的产品能力”。你不需要一开始就“重度微调”，而是先通过Prompt/RAG看到ROI，一边跑一边积累高质量样本。当数据和需求成熟时，自然开启微调。也正是在这一步，一套把“评估→数据→训练→回滚”串起来的平台会非常关键。LlamaFactory Online做的就是这件事：帮团队打通全流程，让业务方只需指出什么是“好答案”、哪些是“典型错例”，剩下的交给平台，把这些经验真正变成一个“懂你业务”的模型。大模型的“下半场”：从拼参数到炼数据Prompt决定了你“怎么跟模型说话”，RAG让模型“随时查得到你最新的知识”，微调则负责那一步：让模型真正长出你企业的业务习惯和判断逻辑。在大模型的“下半场”，拼的已经不是谁的参数更多，而是谁能更好地把私域数据的深度，转化为AI的专业度、稳定性和可复制性。你完全可以从“只用Prompt+RAG”开始，但在设计整体路线图时，不妨提前问自己一句：当我们真的需要一个“像老员工一样的AI”时，是不是已经准备好一条能随时把经验烤进模型的微调路径？如果你已经走到这一步，其实没必要从零啃代码。LlamaFactory Online已经把这条路铺平：在一个界面里完成数据管理、训练配置、监控评估和版本回滚，支持主流开源大模型，覆盖SFT、DPO等多种微调范式，让团队零基础上手，用数据说话，看一眼微调前后的对比，再决定要不要继续加码。

架构师李哲 发表于2026-03-02 10:50:37 2026-03-02 10:50:37 最后回复架构师李哲 2026-03-02 10:50:37
13 0

语言理解深度学习自然语言处理基础语言生成
2小时打造专业医疗助手：基于CareGPT与Qwen3-8B的微调实战

凌晨一点，突发剧烈头痛，视力也开始模糊。在这种紧急情况下，使用通用AI助手寻求建议，往往只能得到“请及时就医”这样正确但无用的回答。用户真正需要的，是具备初步症状识别、风险评估和就医指引能力的专业助手。这正是当前通用大模型在医疗场景中的典型短板：● 缺乏专业医学知识体系，无法进行症状关联分析● 回答过于保守，难以提供具针对性的分级建议● 无法识别症状组合背后的潜在疾病类型差异现在，通过LLaMA-Factory Online平台，我们只需要2小时，就能基于CareGPT和Qwen3-8B模型，系统性地构建一个真正“懂症状、能判断”的智能医疗助手。实际效果对比如下：用户提问：“我突然剧烈头痛，视力模糊，可能是什么原因？通用模型回答虽然结构完整，但存在明显不足：建议过于保守，仅笼统地建议“观察症状”和“及时就医”，缺乏具体的风险评估和紧急情况指引，对急性症状的响应不够充分。微调后的医疗助手回答展现出明显的改进，回答涵盖了更全面的病因分析，从眼部问题到颅内状况，从血压因素到偏头痛，提供了更具参考价值的医学信息。虽然仍有优化空间，但已经展现出从“通用回复”到“专业解答”的明显进步。这种具备症状初步分析、风险评估和明确就医指引的专业回应，正是通过CareGPT医疗语料与Qwen3-8B的高效微调实现的。在接下来的内容中，我将完整演示如何通过LLaMA Factory Online平台，在2小时内完成从数据准备、模型微调到效果验证的全流程。配置概览说明配置参数配置项是否预置说明模型Qwen3-8B是Qwen3-8B是一款轻量化的开源大语言模型，具备较强的通用语言理解与生成能力，支持多场景适配，且在医疗等垂直领域可通过领域适应训练进一步优化专业性，适配中小规模算力需求，兼顾性能与部署灵活性。数据集ChatMed_Consult_Dataset和HuatuoGPT2-SFT-GPT4-140K否ChatMed_Consult_Datase由Wei Zhu主导构建，是中文医疗问诊数据集，补全中文医疗LLM训练数据，供模型微调；HuatuoGPT2-SFT-GPT4-140K由FreedomIntelligence团队打造，是大规模中文医疗指令微调数据集，借GPT-4生成优质响应，提升医疗LLM指令能力，支撑监督微调。GPUH800*4（推荐）-模型规模较大，建议配置足够显存。微调方法lora-显著降低计算与存储成本，兼具高性能与部署灵活性。资源消耗预计使用推荐资源（H800*4）进行微调时微调过程总时长约2h16min。具体操作步骤步骤一：数据准备1. 下载数据集。数据集下载完成后，需上传至文件管理。● 下载ChatMed_Consult_Dataset数据集。● 下载HuatuoGPT2-SFT-GPT4-140K数据集。 2. 数据格式转换。LLaMA Factory作为主流的大语言模型微调框架，对医疗问诊类数据有明确的格式要求（需包含instruction、input、output核心字段，支持多轮对话的history字段可选）。针对ChatMed_Consult_Dataset数据集原有的 “query-response” 二元结构，需通过字段映射与格式重构，将其转换为LLaMA Factory兼容的数据格式。数据格式转换的具体步骤如下：a. 进入LLaMA-Factory Online平台，单击“控制台”，进入控制台后单击左侧导航栏的“实例空间”，然后在页面单击“开始微调”。 b. 在弹出的页面选择“CPU”，核数选择“2核”，然后单击“启动”。 c. 实例启动后，单击[VSCode处理专属数据]页签，进入VSCode编辑页面。您也可以根据需要打开JupyterLab处理数据，本示例指导您通过VSCode处理数据。d. 在VSCode页面左侧user-data/datasets目录下（如图①）新建一个.py后缀的文件（如图②），然后复制以下命令至文件中（如图③）。import json import pandas as pd import jsonlines from typing import List, Dict def chatmed_to_llamafactory( input_path: str, output_path: str, instruction: str = "你是专业的医疗咨询助手，请根据用户的医疗问诊需求，提供准确、易懂的疾病解答、治疗建议与日常注意事项，回答需符合医学常识，同时提示用户最终需咨询专业医生确认诊断。" ) -> None: raw_data: List[Dict] = [] with jsonlines.open(input_path, "r") as f: for line in f: raw_data.append(line) llamafactory_data: List[Dict] = [] for idx, item in enumerate(raw_data): try: if "query" not in item or "response" not in item: print(f"跳过第{idx+1}条数据：缺失query或response字段") continue converted_item = { "instruction": instruction, "input": item["query"].strip(), "output": item["response"].strip(), "history": [] } llamafactory_data.append(converted_item) except Exception as e: print(f"处理第{idx+1}条数据时出错：{str(e)}，已跳过") continue with open(output_path, "w", encoding="utf-8") as f: json.dump(llamafactory_data, f, ensure_ascii=False, indent=2) print(f"转换完成！原始数据共{len(raw_data)}条，有效转换{len(llamafactory_data)}条，输出路径：{output_path}") if __name__ == "__main__": INPUT_FILE = "./ChatMed_Consult-v0.3.json" OUTPUT_FILE = "./datasets/multi-med.json" chatmed_to_llamafactory( input_path=INPUT_FILE, output_path=OUTPUT_FILE, ) e. VSCode页面，新建一个终端，依次执行以下命令，进行数据格式转换（如图①和②）。conda activate /opt/conda/envs/lf python testshuju.py 💡提示testshuju.py为本示例新建的文件，请根据您的实际情况进行替换。回显信息如图③所示，说明数据格式转换成功，且转换后的数据存放在/datasets/multi-med.json中，即原数据集文件ChatMed_Consult_Dataset经格式转换后生成新的数据集文件multi-med。 3. 数据集检测。a. 返回LLaMA-Factory Online控制台，单击左侧导航栏的“文件管理”。b. 单击目标数据集右侧“操作”列的"数据集检测"，检测数据集。如下图所示，若“数据集格式检测”结果显示“符合”，则表示数据集符合格式要求。步骤二：模型微调1. 进入LLaMA-Factory Online平台，单击“控制台”，进入控制台后单击左侧导航栏的“模型微调”进入页面。2. 选择模型和数据集，进行参数配置。○ 本实践使用平台内置的Qwen3-8B作为基础模型（如图①），数据集为ChatMed_Consult_Dataset（multi-med）和HuatuoGPT2-SFT-GPT4-140K（如图②）。○ 训练配置：选择“专家微调”（如图③）；“训练轮数”配置为“2”，“单CPU批处理大小”配置为“24”（如图④）。○ 分布式配置：打开“DeepSpeed”开关（如图⑤）。○ 资源配置：推荐卡数为4卡（如图⑥）。○ 选择价格模式：本实践选择“极速尊享”（如图⑦）。○ 开始训练：单击“开始训练”，开始模型训练。 💡提示配置模型与数据集后，系统将根据所需资源及其相关参数，动态预估任务运行时长及微调费用，您可在页面底部查看预估结果。 3. 通过任务中心查看任务状态。在左侧边栏选择“任务中心”，在“模型微调”页面即可看到刚刚提交的任务。单击任务框，可查看任务的详细信息、超参数、训练追踪和日志。 4. 任务完成后，模型自动保存在"文件管理->模型->output"文件夹中。可在"任务中心->基本信息->模型成果"处查看保存路径。步骤三：模型评估1. 单击页面左侧导航栏的“模型评估”，进行评估训练配置。2. 微调模型选择上一步骤微调后的模型(如图①)，评估数据集为ChatMed_Consult_Dataset（multi-med）和HuatuoGPT2-SFT-GPT4-140K（如图②）。然后配置如下参数（如图③）：○ 单GPU批处理大小：设置为32。○ 截断长度：设置为2048。○ 最大生成长度：设置为1024。其他参数设置为默认即可。 💡提示配置模型与数据集后，系统将根据所需资源及其相关参数，动态预估任务运行时长及微调费用，您可在页面底部查看预估结果。 3. 可以在“任务中心->模型评估”下看到评估任务的运行状态。 4. 单击图标，进入任务基本信息查看页面。用户可查看评估任务的基本信息、日志以及评估结果。步骤四：模型对话1. 单击页面左侧导航栏“模型对话”，进入模型对话页面。2. 在微调模型处选择目标模型名称（如图①），单击右上角“开始对话”（如图②），在弹出的对话框单击“立即对话”。 3. 在右侧配置栏的“System Prompt”处输入提示词(如图①)，在输入框中输入问题（如图②），单击发送；在对话框中查看对话详情（如图③）。本次基于Qwen3-8B模型，采用LoRA方法在专业医疗数据集上的微调实践表明，该技术方案在保持模型通用能力的同时，显著提升了医疗问答的专业性和实用性。从技术演进角度看，微调后的模型与医疗系统深度融合将释放更大价值。这种"领域微调+系统集成"的技术路径，为AI在医疗等专业场景的落地提供了经过验证的解决方案。作为长期专注于大模型产业落地的技术架构师，我认为LLaMA-Factory Online平台为领域适配提供了高效的工程化路径，这种轻量化微调方案兼具效率与实用性，值得在更多专业场景中推广验证。PS.如何学习AI大模型？作为一名深耕大模型微调领域多年的技术架构师，我深知“纸上得来终觉浅”。在见证了上百个微调项目的成功与失败后，我深刻认识到，拥有一个清晰的学习路径和经过验证的实战资源是多么关键。为此，我特意整理了全套《大模型微调实战进阶宝典》，这份资料凝聚了我多年的实战经验，其中包含：《大模型微调实战避坑指南》：精选20+真实项目经验，解析训练发散、灾难性遗忘等高频难题《十大前沿行业微调白皮书》：汇集金融、医疗、汽车、法律、保险等众多领域大模型先锋案例《开箱即用微调数据集精选》：涵盖指令微调、对话、专业领域问答与代码生成等多个实战场景愿你能用它，快速撬动大模型在你业务中的巨大价值！

架构师李哲 发表于2025-10-28 16:23:51 2025-10-28 16:23:51 最后回复架构师李哲 0
21 0

医疗智能体 EIHealth 语言理解自然语言处理基础语言生成定制自然语言处理
[技术干货] 昇腾平台的大模型QwQ-32B安装部署

1. 下载模型权重安装python环境 conda create -n qwq_model python==3.13.6 conda activate qwq_model pip install modelscope 通过 modelscope SDK下载模型（https://www.modelscope.cn/models/Qwen/QwQ-32B）到制定目录 mkdir -p /usr/local/data/model_list/model/QwQ-32B modelscope download --model Qwen/QwQ-32B --local_dir /usr/local/data/model_list/model/QwQ-32B 2. 部署模型 vim /etc/sysctl.conf 设置 net.ipv4.ip_forward的值为1 source /etc/sysctl.conf docker pull swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc1-py_3.11-hce_2.0.2503-aarch64-snt9b-20250729103313-3a25129 启动容器 docker run -itd \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \-v /etc/localtime:/etc/localtime \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /etc/ascend_install.info:/etc/ascend_install.info \--device=/dev/davinci_manager \--device=/dev/devmm_svm \--device=/dev/hisi_hdc \-v /var/log/npu/:/usr/slog \-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \-v /sys/fs/cgroup:/sys/fs/cgroup:ro \-v /usr/local/data/model_list/model:/usr/local/data/model_list/model \--net=host \--name vllm-qwen \91c374f329e4 \/bin/bash 来到容器环境 docker exec -it -u ma-user ${container_name} /bin/bashdocker exec -it -u ma-user vllm-qwen /bin/bash设置容器里的参数export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export VLLM_PLUGINS=ascend # VPC网段# 需用户手动修改，修改方式见下方注意事项VPC_CIDR="192.168.0.0/16" VPC_PREFIX=$(echo "$VPC_CIDR" | cut -d'/' -f1 | cut -d'.' -f1-2)POD_INET_IP=$(ifconfig | grep -oP "(?<=inet\s)$VPC_PREFIX\.\d+\.\d+" | head -n 1)POD_NETWORK_IFNAME=$(ifconfig | grep -B 1 "$POD_INET_IP" | head -n 1 | awk '{print $1}' | sed 's/://')echo "POD_INET_IP: $POD_INET_IP"echo "POD_NETWORK_IFNAME: $POD_NETWORK_IFNAME" # 指定通信网卡export GLOO_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport TP_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport HCCL_SOCKET_IFNAME=$POD_NETWORK_IFNAME# 多机场景下配置export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1 # 开启显存优化export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True# 配置通信算法的编排展开位置在Device侧的AI Vector Core计算单元export HCCL_OP_EXPANSION_MODE=AIV# 指定可使用的卡，按需指定export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7# 指定绑核，按需指定export CPU_AFFINITY_CONF=1export LD_PRELOAD=/usr/local/lib/libjemalloc.so.2:${LD_PRELOAD}# 默认启用 ascend-turbo-graph模式，指定启动插件export VLLM_PLUGINS=ascend_vllm# 如果使用 acl-graph 或者 eager 模式，指定启动插件 # export VLLM_PLUGINS=ascend# 指定vllm后端 v1export VLLM_USE_V1=1# 指定vllm版本export VLLM_VERSION=0.9.0 export USE_MM_ALL_REDUCE_OP=1export MM_ALL_REDUCE_OP_THRESHOLD=256 # 不需要设置以下环境变量unset ENABLE_QWEN_HYPERDRIVE_OPTunset ENABLE_QWEN_MICROBATCHunset ENABLE_PHASE_AWARE_QKVO_QUANTunset DISABLE_QWEN_DP_PROJ source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash 运行API服务 nohup python -m vllm.entrypoints.openai.api_server \--model /usr/local/data/model_list/model/QwQ-32B \--max-num-seqs=256 \--max-model-len=512 \--max-num-batched-tokens=512 \--tensor-parallel-size=4 \--block-size=128 \--host=192.168.0.127 \--port=18186 \--gpu-memory-utilization=0.95 \--trust-remote-code \--no-enable-prefix-caching \--additional-config='{"ascend_turbo_graph_config": {"enabled": true}, "ascend_scheduler_config": {"enabled": true}}' > QwQ-32B.log 2>&1 & port端口号可以自定义，勿与已经使用的端口号冲突 3. 验证API服务验证服务 curl http://192.168.0.127:18186/v1/completions \-H "Content-Type: application/json" \-d '{ "model": "/usr/local/data/model_list/model/QwQ-32B", "prompt": "What is moon","max_tokens": 64,"temperature": 0.5 }'

yd_279030207 发表于2025-10-14 11:36:25 2025-10-14 11:36:25 最后回复云聪明 2025-10-27 13:09:25
116 2

昇腾人工智能深度学习神经网络语言生成
[互动交流] 在华为云有什么适合部署小模型的服务器？

在华为云有什么适合部署小模型的服务器？

知识浅谈 发表于2025-03-20 22:24:57 2025-03-20 22:24:57 最后回复多米诺的古牌 2025-03-30 18:41:13
208 8

语言生成
[参赛经验分享] 2023“域见杯”医检人工智能开发者大赛（赛题二：智能染色体核型分析）-赛队“流明”优胜奖方案分享

前言大家好，我是“流明”团队的队长，非常荣幸参加域见杯赛题二“智能临床咨询模型”，获得了B榜第四名，这里做一个简单的分享，一起交流学习。分享数据分析主要讲了一些预模型的重要性，脱敏数据对模型本身不太友好，如果想要达到理想的效果需要重新预训练，其次就是简单提到了数据的长度分布和一些数据的特点。模型选择根据线上的分数最终选择T5作为单模型，简单讲了模型的基本结构。训练策略上用到了数据增强，余弦退火，标签平滑，对比训练，对抗训练, ema这些技巧都是可以提升分数的一个技巧，至少在我们团队做的t5-base实验是有用的最终t5-base单模型在初赛上第三，复赛第4这个一个分数，整个方案相对来说比较简单，不足写的也是比较多的。感想首先就是感谢广州市科学技术局、金域医学以及华为云提供的这次竞赛机会，其次就是认识了一些小伙伴，最后对于我个人来说最近比较疲于奔命，很多事情做不到尽善尽美，越来越希望在有限的时间里做一些简单尽所能及的事情。

深度玄学 发表于2023-09-13 14:58:50 2023-09-13 14:58:50 最后回复深度玄学 0
34 0

AI开发平台ModelArts 语言理解自然语言处理基础语言生成
[参赛经验分享] 2023“域见杯”医检人工智能开发者大赛-团队“中文GPT“-TOP4方案分享

前言大家好，我是“中文GPT”团队的队长，这次比赛我和我的两个小伙伴一起参加域见杯赛题一“智能临床咨询模型”，获得了B榜第四名，在这里我们做一个简单的分享，一起交流学习。分享首先了解一下赛题一的赛题背景和数据集，简单表示为根据用户咨询医疗检测项目的真实临床问答数据，训练一个智能问答模型，辅助医生决策，训练集和验证集共2788条。然后我们针对question和answer做了一个简单的长度分布统计。根据数据集长度分布情况，可以得知question的长度分布较短，在125以内，answer的长度分布较长，在400以内，这要求模型需要具备丰富的医疗问答知识才能够回答，所以我们在后续进行了领域数据扩充。此外，赛题还存在其他两个问题，一是数据集专业性强，与通用的医疗问答数据相似度不高，选择领域数据时也是需要合理的筛选，二是线上推理条件限制CPU2核8GB，这要求我们需选择一些满足推理条件的模型。下面对我们的方法进行介绍，方案整体设计流程框架如下图所示，主要分为领域数据训练、微调、解码生成三个阶段：对于领域数据训练，我们构建了一个医疗领域通用问答数据，选择bart-large模型进行领域数据训练，丰富模型的医疗知识内容；然后基于领域数据训练的权重，进一步对赛题任务数据进行微调；最后通过beam search的解码策略生成文本。在模型选择上，baseline提供的是T5-pegaus模型，不过经过测试，bart模型应该是效果相对较好的，所以我们选择了bart-large模型。解码策略上，beamsearch策略比默认的贪心解码策略效果好不少，并且开大beam有一定的提升。对于医疗领域通用问答数据的构建，我们选择华佗GPT等模型开源的数据以及爬取了其他医疗检测公司的类似检测项目数据，构成了模型的领域数据。除此上述方案，我们也尝试过使用Bart预训练任务重的Text infilling任务来做mask继续预训练替换领域数据训练阶段，然后再进行微调，也有一定的提升效果，当然也做过其他nlp比赛常见的训练tirck，例如：fgm、ema、rdrop、childtune等都没什么涨点。接着是对模型的训练策略进行介绍，与baseline不同，我们选择了adamw作为优化器，调整学习策略为线性衰减，并且使用标签平滑，同时在不同的训练阶段我们进行了阶段性调整学习率，使得模型更加拟合赛题任务数据。感想第一次参加医疗检测方面的AI比赛，学习到了不少。同时感谢广州市科学技术局、金域医学以及华为云提供的这次竞赛机会，让我们团队三个网友来了一次线下见面，此外，也通过这次竞赛认识到了其他团队中的各位大佬。

yd_247956141 发表于2023-09-13 10:41:40 2023-09-13 10:41:40 最后回复 yd_247956141 0
85 0

自然语言处理基础语言生成
[互动交流] 华为有没有AI代码生成服务？

想做一个系统生成器，需要一款相对成熟的AI代码生成器，求推荐

猿筑宇宙-柳大宝 发表于2023-08-04 16:37:21 2023-08-04 16:37:21 最后回复多米诺的古牌 2023-08-25 18:10:16
605 4

代码检查 CodeArts Check 汇编语言语言生成
[热门活动] 技术云诗句编写与查看............

技术云诗句编写与查看............

yd_295906558 发表于2023-02-25 17:11:02 2023-02-25 17:11:02 最后回复 yd_295906558 2023-02-25 17:11:02
21 0

机器翻译云数据库 TaurusDB 语言理解自然语言处理基础语言生成
[问题求助] 如何在python里加入字典

python加入字典的代码怎么打啊

yd_270280876 发表于2023-02-24 15:15:54 2023-02-24 15:15:54 最后回复 DevFeng 2023-02-25 14:00:07
66 2

语言理解自然语言处理基础语言生成云数据库 RDS for MySQL
AI人工智能作诗

已完成

yd_268033662 发表于2023-02-10 10:40:23 2023-02-10 10:40:23 最后回复 yd_268033662 2023-02-10 10:40:23
32 0

知识图谱华为云APP 人工智能语言生成
已完成

云实践AI与诗词已经完成

yd_275330303 发表于2023-02-06 11:45:56 2023-02-06 11:45:56 最后回复 yd_252706902 2023-02-06 16:34:06
37 2

语言生成
[其他] AI

yd_237306601 发表于2023-01-01 13:03:45 2023-01-01 13:03:45 最后回复运气男孩 2023-01-29 21:36:35
46 1

语言生成
[热门活动] 这就是我的AI诗哈哈哈真不错

嘿嘿嘿我的诗不错吧，

yd_270078412 发表于2022-12-30 19:51:30 2022-12-30 19:51:30 最后回复 yd_270078412 2022-12-30 19:51:30
34 0

云备份 CBR 自然语言处理基础语言生成
[其他] AI绘画识别

AI文字成图识别语言理解，yu'yan'chu'li

yd_256854365 发表于2022-12-21 20:55:01 2022-12-21 20:55:01 最后回复 yd_256854365 2022-12-21 20:55:01
39 0

语言理解自然语言处理基础语言生成
星辰大海

少女的征途是星辰大海

yd_221110273 发表于2022-12-17 16:35:42 2022-12-17 16:35:42 最后回复 yd_221110273 2022-12-17 16:35:42
24 0

语言生成

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript