- 掌握数学魔术:用多项式拟合在Ascend C中实现任意激活函数【华为根技术】 引言:超越固有指令集的限制在常规算子开发中,我们习惯于调用硬件直接支持的Sigmoid、ReLU、GELU等内置函数。这些指令经过深度优化,执行效率极高。然而,学术研究和实际应用的需求永无止境。想象这样一个场景:最新一篇NeurIPS论文提出了突破性的激活函数:f(x)=x1+αx2⋅tanh(βx)f(x) ... 掌握数学魔术:用多项式拟合在Ascend C中实现任意激活函数【华为根技术】 引言:超越固有指令集的限制在常规算子开发中,我们习惯于调用硬件直接支持的Sigmoid、ReLU、GELU等内置函数。这些指令经过深度优化,执行效率极高。然而,学术研究和实际应用的需求永无止境。想象这样一个场景:最新一篇NeurIPS论文提出了突破性的激活函数:f(x)=x1+αx2⋅tanh(βx)f(x) ...
- Scatter算子在CUDA上的高效Triton实现与优化-实践指南 📌 摘要本文聚焦于Scatter算子在NVIDIA GPU上的高性能Triton实现与深度优化。针对稀疏更新、图神经网络邻接聚合等核心场景,提出了一套涵盖原子操作优化、冲突消解、内存合并访问的完整解决方案。通过本文阐述的优化策略,在典型稀疏更新任务中,相比基础实现可获得最高4.1倍的性能提升,并将显存带宽利用率提升60... Scatter算子在CUDA上的高效Triton实现与优化-实践指南 📌 摘要本文聚焦于Scatter算子在NVIDIA GPU上的高性能Triton实现与深度优化。针对稀疏更新、图神经网络邻接聚合等核心场景,提出了一套涵盖原子操作优化、冲突消解、内存合并访问的完整解决方案。通过本文阐述的优化策略,在典型稀疏更新任务中,相比基础实现可获得最高4.1倍的性能提升,并将显存带宽利用率提升60...
- 本文聚焦游戏场景下新型外挂的隐蔽性检测难题,围绕深度学习技术在识别“隐流篡改”“拟真伪装”类异常行为中的实战应用,拆解从表层特征捕捉到深层逻辑建模的技术迭代思路。通过深挖玩家行为的时序韵律、决策熵变与语义闭环,突破传统检测的规则局限,依托多模态协同建模、动态特征追踪与行为基线焕新等核心策略,精准捕捉新型外挂拟真伪装下的隐性逻辑断层与特征偏差。 本文聚焦游戏场景下新型外挂的隐蔽性检测难题,围绕深度学习技术在识别“隐流篡改”“拟真伪装”类异常行为中的实战应用,拆解从表层特征捕捉到深层逻辑建模的技术迭代思路。通过深挖玩家行为的时序韵律、决策熵变与语义闭环,突破传统检测的规则局限,依托多模态协同建模、动态特征追踪与行为基线焕新等核心策略,精准捕捉新型外挂拟真伪装下的隐性逻辑断层与特征偏差。
- 大模型压缩与效率优化:量化、剪枝与蒸馏的协同策略 引言:大模型部署的效率困境当前,GPT-4、LLaMA等百亿甚至万亿参数大模型在各类任务上展现出卓越性能,但巨大的计算开销和内存占用严重限制了其实际部署。单一优化技术往往只能在特定维度带来有限改进,而量化、剪枝与蒸馏的协同策略正在成为解决这一困境的关键突破。本文将深入探讨这三种核心技术的协同优化机制,并提供完整的代码实现。 理论基础:三大压... 大模型压缩与效率优化:量化、剪枝与蒸馏的协同策略 引言:大模型部署的效率困境当前,GPT-4、LLaMA等百亿甚至万亿参数大模型在各类任务上展现出卓越性能,但巨大的计算开销和内存占用严重限制了其实际部署。单一优化技术往往只能在特定维度带来有限改进,而量化、剪枝与蒸馏的协同策略正在成为解决这一困境的关键突破。本文将深入探讨这三种核心技术的协同优化机制,并提供完整的代码实现。 理论基础:三大压...
- 当硅谷还在讨论AGI(通用人工智能)如何重塑文明,华为却在研究怎么让煤矿工人“穿着西装挖煤”。这不仅是战略的差异,更是在地缘政治与技术封锁下,一场不得不进行的“豪赌”。但这条路的尽头,真的能通向未来吗?中国 VS 美国 两条平行线:仰望星空与脚踏实地最近,任正非在上海练秋湖研发中心与ICPC(国际大学生程序设计竞赛)顶尖选手座谈时,再次明确了华为AI的路线图。他直言不讳地指出了中美在AI追求... 当硅谷还在讨论AGI(通用人工智能)如何重塑文明,华为却在研究怎么让煤矿工人“穿着西装挖煤”。这不仅是战略的差异,更是在地缘政治与技术封锁下,一场不得不进行的“豪赌”。但这条路的尽头,真的能通向未来吗?中国 VS 美国 两条平行线:仰望星空与脚踏实地最近,任正非在上海练秋湖研发中心与ICPC(国际大学生程序设计竞赛)顶尖选手座谈时,再次明确了华为AI的路线图。他直言不讳地指出了中美在AI追求...
- 钛丝驱动技术(NiTiDrivetech)的可靠性设计【前言】形状记忆合金(Shape memory alloy, SMA),也叫形态记忆合金、肌肉丝、镍钛记忆合金,它是由Ni(镍)- Ti(钛)材料组成,经过多道工序制成的丝,财哥简称钛丝,可以通过电路驱动钛丝发生运动。相比于传统的电机、电磁铁动力,钛丝是一种新型的动力元件。钛丝驱动技术(nitidrivetech)目前已经在航空航天、医疗... 钛丝驱动技术(NiTiDrivetech)的可靠性设计【前言】形状记忆合金(Shape memory alloy, SMA),也叫形态记忆合金、肌肉丝、镍钛记忆合金,它是由Ni(镍)- Ti(钛)材料组成,经过多道工序制成的丝,财哥简称钛丝,可以通过电路驱动钛丝发生运动。相比于传统的电机、电磁铁动力,钛丝是一种新型的动力元件。钛丝驱动技术(nitidrivetech)目前已经在航空航天、医疗...
- 钛丝驱动技术(NiTiDrivetech)的可靠性设计【前言】形状记忆合金(Shape memory alloy, SMA),也叫形态记忆合金、肌肉丝、镍钛记忆合金,它是由Ni(镍)- Ti(钛)材料组成,经过多道工序制成的丝,财哥简称钛丝,可以通过电路驱动钛丝发生运动。相比于传统的电机、电磁铁动力,钛丝是一种新型的动力元件。钛丝驱动技术(nitidrivetech)目前已经在航空航天、医疗... 钛丝驱动技术(NiTiDrivetech)的可靠性设计【前言】形状记忆合金(Shape memory alloy, SMA),也叫形态记忆合金、肌肉丝、镍钛记忆合金,它是由Ni(镍)- Ti(钛)材料组成,经过多道工序制成的丝,财哥简称钛丝,可以通过电路驱动钛丝发生运动。相比于传统的电机、电磁铁动力,钛丝是一种新型的动力元件。钛丝驱动技术(nitidrivetech)目前已经在航空航天、医疗...
- 通过本次 Glass记小圈应用 的开发实战,我们完整地梳理了纯眼镜端应用从功能设计、SDK集成到多媒体交互的开发流程。在拍照、录像和录音的实现过程中,我们不仅熟悉了CXR-S SDK提供的接口和回调机制,还深入理解了眼镜端在硬件性能、功耗和蓝牙传输等方面的限制与优化策略。 通过本次 Glass记小圈应用 的开发实战,我们完整地梳理了纯眼镜端应用从功能设计、SDK集成到多媒体交互的开发流程。在拍照、录像和录音的实现过程中,我们不仅熟悉了CXR-S SDK提供的接口和回调机制,还深入理解了眼镜端在硬件性能、功耗和蓝牙传输等方面的限制与优化策略。
- 华为CANN算子开发全解析:从基础概念到高性能数据排布在深度学习领域,算子(Operator,简称OP)是模型计算的基本单元。每一个算子承载了特定的数学运算逻辑,例如卷积(Convolution)、池化(Pooling)、归一化(Softmax)、激活函数(ReLU)等。华为CANN(Compute Architecture for Neural Networks)框架提供了强大的算子支持... 华为CANN算子开发全解析:从基础概念到高性能数据排布在深度学习领域,算子(Operator,简称OP)是模型计算的基本单元。每一个算子承载了特定的数学运算逻辑,例如卷积(Convolution)、池化(Pooling)、归一化(Softmax)、激活函数(ReLU)等。华为CANN(Compute Architecture for Neural Networks)框架提供了强大的算子支持...
- 1.背景与问题在AI大模型训练过程中,性能优化是永恒的主题。如何快速、高效地实现算子级优化,进一步提升整网训练效率,成为很多开发者与企业的核心诉求。昇腾CANN开放了算子源码,并提供了Ascend C编程能力,使用户能够根据自身业务需求开发高性能算子。本实践聚焦于两个紧密相关的损失函数:交叉熵损失(CrossEntropyLoss)和ZLoss。在客户的某大模型训练场景中,使用Mind St... 1.背景与问题在AI大模型训练过程中,性能优化是永恒的主题。如何快速、高效地实现算子级优化,进一步提升整网训练效率,成为很多开发者与企业的核心诉求。昇腾CANN开放了算子源码,并提供了Ascend C编程能力,使用户能够根据自身业务需求开发高性能算子。本实践聚焦于两个紧密相关的损失函数:交叉熵损失(CrossEntropyLoss)和ZLoss。在客户的某大模型训练场景中,使用Mind St...
- 近几年,人工智能(AI)已经从科幻电影里的“高冷技术”逐渐走进了我们的日常生活。我们用手机App识别人脸、用智能音箱听音乐、用自动驾驶技术出行。这些其实只是AI应用的冰山一角。事实上,AI正悄然改变着科学研究的方式,推动着整个社会的进步。在蛋白质结构预测、药物发现、气候模型和材料科学等前沿领域,AI已经展现出前所未有的力量。今天,我想和大家分享AI在这些科学领域的故事,让更多人了解、学习并应... 近几年,人工智能(AI)已经从科幻电影里的“高冷技术”逐渐走进了我们的日常生活。我们用手机App识别人脸、用智能音箱听音乐、用自动驾驶技术出行。这些其实只是AI应用的冰山一角。事实上,AI正悄然改变着科学研究的方式,推动着整个社会的进步。在蛋白质结构预测、药物发现、气候模型和材料科学等前沿领域,AI已经展现出前所未有的力量。今天,我想和大家分享AI在这些科学领域的故事,让更多人了解、学习并应...
- 一、神经元的"心跳":激活函数在人工神经网络的世界里,每个节点都是一个虚拟神经元。就像人类大脑中神经元传递信号需要突触连接,机器学习中的神经元也需要某种"触发机制"。这就是激活函数的核心作用——它决定着信息是否继续向前传递。想象一下教室里的举手发言场景。如果把输入数据看作学生提出的问题,激活函数就是老师的判断标准。当问题的"强度"超过某个阈值(比如"这个问题值得讨论"),老师才会允许学生站... 一、神经元的"心跳":激活函数在人工神经网络的世界里,每个节点都是一个虚拟神经元。就像人类大脑中神经元传递信号需要突触连接,机器学习中的神经元也需要某种"触发机制"。这就是激活函数的核心作用——它决定着信息是否继续向前传递。想象一下教室里的举手发言场景。如果把输入数据看作学生提出的问题,激活函数就是老师的判断标准。当问题的"强度"超过某个阈值(比如"这个问题值得讨论"),老师才会允许学生站...
- 我第一次接触AI的时候,总觉得它像一台黑箱机器:塞进数据,按下按钮,就吐出结果。后来才明白,AI并不是一上台就完美的,它更像一个需要练习的学生,靠三样关键“把手”一步步长进:激活函数、损失函数、正则化技术。理解这三者,就能轻松地理解AI在“做什么”、怎样“做得更好”,以及为何要“做得更稳”。 激活函数:给模型一个“非线性”的世界如果说输入和权重相乘是在做“配比”,激活函数就是给结果“换气”... 我第一次接触AI的时候,总觉得它像一台黑箱机器:塞进数据,按下按钮,就吐出结果。后来才明白,AI并不是一上台就完美的,它更像一个需要练习的学生,靠三样关键“把手”一步步长进:激活函数、损失函数、正则化技术。理解这三者,就能轻松地理解AI在“做什么”、怎样“做得更好”,以及为何要“做得更稳”。 激活函数:给模型一个“非线性”的世界如果说输入和权重相乘是在做“配比”,激活函数就是给结果“换气”...
- 基于 CANN Kernel 直调工程的 Ascend C 算子开发实战:从 Add 到多核流水的深度实践(训练营深度实践篇)在昇腾生态中,CANN 提供了一整套从算子开发到部署的高效工具链,而 Ascend C 则是其中面向 AI Core 进行 Kernel 编程的核心能力。对于很多初次接触 CANN 的开发者而言,“算子如何真正落到 AI Core 上运行?”、“如何实现多核并行与流... 基于 CANN Kernel 直调工程的 Ascend C 算子开发实战:从 Add 到多核流水的深度实践(训练营深度实践篇)在昇腾生态中,CANN 提供了一整套从算子开发到部署的高效工具链,而 Ascend C 则是其中面向 AI Core 进行 Kernel 编程的核心能力。对于很多初次接触 CANN 的开发者而言,“算子如何真正落到 AI Core 上运行?”、“如何实现多核并行与流...
- 你是否曾好奇,为什么AI能在围棋上战胜世界冠军?为什么手机相册能精准识别出你和家人的面孔?为什么短视频平台总能“猜”到你喜欢看什么?这些看似“魔法”的背后,都离不开一个核心技术——深度学习。它并非遥不可及的科幻概念,而是由一系列精妙的数学原理和工程实践构成的强大工具。今天,我们就来拆解这个“黑箱”,从神经网络的结构到反向传播的算法,一窥其究竟。 神经网络:模拟大脑的数学模型想象一下,你正在学... 你是否曾好奇,为什么AI能在围棋上战胜世界冠军?为什么手机相册能精准识别出你和家人的面孔?为什么短视频平台总能“猜”到你喜欢看什么?这些看似“魔法”的背后,都离不开一个核心技术——深度学习。它并非遥不可及的科幻概念,而是由一系列精妙的数学原理和工程实践构成的强大工具。今天,我们就来拆解这个“黑箱”,从神经网络的结构到反向传播的算法,一窥其究竟。 神经网络:模拟大脑的数学模型想象一下,你正在学...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签