性能优化_标签_开发者

博客(143)
视频(0)
论坛(7)
云声(0)
代码示例(0)

[交流吐槽] 为什么不支持wsl

缺少wsl的连接功能，也不能远程。基础核心功能缺少，请快速更新

yd_267970767 发表于2026-02-26 20:11:25 2026-02-26 20:11:25 最后回复 CodeArts小助手-蚂蚁 2026-02-27 09:35:04
57 2

性能优化
[交流吐槽] 内置的GLM5实在是太慢了

对比字节的trae，华为codearts内置的GLM5实在是太慢了，导致软件也卡的不行；并且没有类似trae的solo模式，导致复杂任务效果也不太好；同时还缺少mcp市场，没发调用mcp功能。希望能够尽快补全功能，向cc靠齐

yd_239528015 发表于2026-02-26 17:53:11 2026-02-26 17:53:11 最后回复 CodeArts小助手-蚂蚁 2026-02-27 09:36:00
168 1

性能优化
[技术干货] 【赛后分享】从训练到推理，从框架到算子：昇腾 NPU 大模型推理加速全栈优化

一、赛题理解与总体思路我们是本次华为“揭榜挂帅”赛道的“全都对队”，我们在本次比赛中取得了擂主奖项。在对赛题进行分析时，我们意识到，面对的是一项覆盖训练—推理—算子级优化的全流程性能挑战。赛题要求选手不仅能调优模型效果，更需深入昇腾 NPU 底层，对推理链路进行系统级重构。我们的判断是：只有从训练端减负、推理端提效、算子端深挖三个层面同时发力，才能在 NPU 上发挥出模型的极致性能。二、训推一体：从源头降低计算压力我们先从训练侧着手，目标是在不显著牺牲精度的前提下，减少模型在推理阶段的无效计算。SFT 阶段的输出规范化在 SFT 中，我们将 CoT（Chain-of-Thought）和最终答案严格约束为比赛指定格式，使模型从训练阶段就习惯于“结构化回答”。强化学习阶段加入长度惩罚在 RL 中，我们设计了带长度惩罚项的 Reward Function：冗余输出将触发指数级负奖励。这种训练策略促使模型自然收敛为“简洁表达”。实验显示：输出 Token 数量减少约 30%，有效降低了推理端的算力压力，同时保持了接近原精度。三、底层打磨：深度利用 CANN 软件栈在推理侧，我们利用 CANN 软件栈，对算子、图模式、内存等维度进行了深入优化。启用 torch.npu 图模式小 batch 推理时，算子下发的开销会显著影响吞吐。我们将 PyTorch 动态图编译为 NPU 静态计算图：原理：将执行流固化，使编译器能够进行更激进的融合与调度优化。收益：消除 Python Launch Overhead，并提升算子融合、内存复用效率。FFN 多算子融合我们基于 CANN 自定义算子，将 FFN 中若干线性变换与激活操作融合为单一 Kernel，从而显著减少 NPU 显存 ↔ 计算单元之间的往返。四、架构级创新：推理吞吐的倍增策略在推理架构层，我们通过引入新技术与调整策略，突破了吞吐瓶颈。EAGLE 3 投机解码传统自回归逐 Token 解码速度受限。我们采用 EAGLE 3 架构：Draft Model 并行生成候选序列；大模型一次性并行验证。结果：在不损失精度的前提下，解码速度提升约 1.5 倍。取消 Chunked Prefill（基于赛题场景的反直觉选择）行业内常用 Chunked Prefill 用于降低单次 Prefill 对延迟的影响，但它并不提高硬件利用率。在本次评测“侧重高吞吐、并行请求充足”的条件下，Prefill 拆分反而带来调度开销，降低整体 TPS。因此我们选择完全关闭 Chunked Prefill，吞吐量得到提升。KV Cache 前缀缓存 + 输入截断针对赛题大量重复 System Prompt，我们引入 Prefix Cache：相同前缀自动复用 KV Cache，免去重复计算。严格控制输入长度，避免少量长尾请求拖慢整个 Batch。五、效果验证与最终成绩通过“算法优化 → 架构创新 → 底层算子融合”的三级联动，我们实现了最终性能突破：吞吐性能： B 榜达到 707 tokens/s，排名第一。输出质量：在严格格式约束下，模型保持精度且无冗余废话。关键经验：性能优化必须坚持算法—系统—硬件协同设计（Co-Design），任何单一层面的调优都难以实现全局最优。结语技术优化永无止境。本次比赛中，感谢老师的指导、队友的投入，以及华为云成熟的算力基础与 CANN 生态。未来，我们将继续探索 NPU 推理优化的更多可能，为大模型的真实应用场景带来更高效的系统性能。

yd_222510892 发表于2025-12-01 15:18:24 2025-12-01 15:18:24 最后回复林欣 2025-12-24 16:53:01
272 4

昇腾华为云性能优化
[问题求助] 【32期】缺少参数数据

比赛缺少仿真参数，但是又官方限制了若干阈值，如-108，-110。总所周知，仿真参数不同，信号强度大相径庭，难以和官方仿真平台中的结果贴合。感觉比赛不是很合理

yd_239166335 发表于2025-10-20 12:38:19 2025-10-20 12:38:19 最后回复 yd_238581498 2025-11-07 15:41:42
117 6

性能优化
[问题求助] GAUSSDB集中式数据库，是否可以实现指定只对SQL中涉及的某些表使用并行

假设有一条SQL: select * from t1,t2 where t1.id=t2.id 是否可以通过某种方法，实现只对其中的t2表开启并行处理？

大脸猫99 发表于2025-09-19 15:47:25 2025-09-19 15:47:25 最后回复 DS小龙哥 2025-10-31 14:29:44
124 15

云数据库 GaussDB SQL 性能优化
[互动交流] 鲲鹏920的64核云实例在高并发场景（如Web服务器、大数据处理）下，如何通过NUMA绑定或调度策略减少核间延迟？

鲲鹏920的64核云实例在高并发场景（如Web服务器、大数据处理）下，如何通过NUMA绑定或调度策略减少核间延迟？

进击的小扒菜 发表于2025-04-03 10:38:40 2025-04-03 10:38:40 最后回复 Jack20 2025-04-15 11:07:57
186 4

鲲鹏性能优化
[生态对接] spark --jars提交依赖冲突，有没有办法忽略集群中的依赖。只使用fat-jar和--jar提供的

我最近开发了一个maven项目，想使用spark读取/写入greenplum的数据，但是由于jdbc的传输速度限制。所以想采用greenplum-spark connect这个连接器。当我使用--jars将项目和这个依赖包一起提交上去的时候出现了jar包冲突报错:classnotfound。同时自己搭建了一套开源集群，相同的步骤 spark读取/写入greenplum 并且也使用这个连接器--jars提供第三方依赖包，正常读取数据。所以我想有没有办法忽略集群中的依赖。只使用fat-jar和--jar提供的

yd_235664071 发表于2024-03-13 14:54:40 2024-03-13 14:54:40 最后回复晋红轻 2024-03-13 16:30:13
163 2

spark Hive 性能优化 PostgreSQL 大数据

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript