人工智能_标签_开发者

博客(4.9k)
视频(76)
论坛(0)
云声(2.7k)
代码示例(0)

[互动交流] 扩散模型在文本生成任务中面临哪些挑战？如何改进其离散数据生成能力？

扩散模型在文本生成任务中面临哪些挑战？如何改进其离散数据生成能力？

柠檬🍋 发表于2025-06-28 13:25:47 2025-06-28 13:25:47 最后回复云聪明 2025-06-30 10:28:13
12 1

人工智能
[互动交流] DDPM（Denoising Diffusion Probabilistic Models）与DDIM（Denoising Diffusion Implicit Models）在采样速度上有何差异？

DDPM（Denoising Diffusion Probabilistic Models）与DDIM（Denoising Diffusion Implicit Models）在采样速度上有何差异？

柠檬🍋 发表于2025-06-28 13:25:32 2025-06-28 13:25:32 最后回复云聪明 2025-06-30 10:26:44
16 1

人工智能
[互动交流] 扩散模型中的噪声调度（Noise Schedule）如何设计以平衡训练稳定性与生成多样性？

扩散模型中的噪声调度（Noise Schedule）如何设计以平衡训练稳定性与生成多样性？

柠檬🍋 发表于2025-06-28 13:24:55 2025-06-28 13:24:55 最后回复 DS小龙哥 2025-06-30 16:02:30
28 2

人工智能
[互动交流] 如何通过调整扩散步数（Number of Steps）影响生成图像的质量与计算效率？

如何通过调整扩散步数（Number of Steps）影响生成图像的质量与计算效率？

柠檬🍋 发表于2025-06-28 13:24:37 2025-06-28 13:24:37 最后回复 DS小龙哥 2025-06-30 16:02:29
17 2

人工智能
[互动交流] 在扩散模型中，前向过程（Forward Process）与反向过程（Reverse Process）的具体数学表达是什么？

在扩散模型中，前向过程（Forward Process）与反向过程（Reverse Process）的具体数学表达是什么？

柠檬🍋 发表于2025-06-28 13:24:21 2025-06-28 13:24:21 最后回复云聪明 2025-06-30 10:26:44
15 1

人工智能
[互动交流] 扩散模型与生成对抗网络（GANs）相比，在生成质量与稳定性上有哪些优势？

扩散模型与生成对抗网络（GANs）相比，在生成质量与稳定性上有哪些优势？

柠檬🍋 发表于2025-06-28 13:24:06 2025-06-28 13:24:06 最后回复 DS小龙哥 2025-06-30 16:02:29
12 2

人工智能
[互动交流] 扩散模型的核心原理是什么？如何通过逐步去噪生成数据？

扩散模型的核心原理是什么？如何通过逐步去噪生成数据？

柠檬🍋 发表于2025-06-28 13:23:43 2025-06-28 13:23:43 最后回复林欣 2025-07-02 15:15:39
22 3

人工智能
[技术干货] 为什么我们见到的大模型教学课程基本都选择 LLaMA ？

大模型教学课程选择 LLaMA（由Meta发布）作为核心案例进行讲解，主要基于以下几个关键原因：1. 开源与可访问性完全开源：LLaMA系列模型（如LLaMA-2）采用宽松的开源协议（部分版本商用需授权），允许研究者、开发者自由下载、修改和部署，避免了GPT-4等闭源模型的访问限制。社区支持：开源生态催生了丰富的工具链（如Hugging Face的transformers库、Llama.cpp等），降低了教学中的技术门槛。2. 架构的经典性与代表性Transformer标准实现：LLaMA基于纯Decoder结构的Transformer（类似GPT），是当前大语言模型的主流架构，适合讲解自回归生成、注意力机制等核心原理。技术透明：Meta公开了模型结构、训练方法（如RMSNorm、RoPE位置编码），便于深入剖析，而闭源模型的细节往往不透明。3. 轻量化与适配硬件多尺寸版本：LLaMA提供不同参数规模（7B/13B/70B等），小版本可在消费级GPU（甚至CPU）上运行，适合教学实验；大版本则能展示分布式训练技巧。优化工具丰富：量化（如4-bit推理）、LoRA微调等技术可在课程中演示，帮助学生理解模型压缩与适配。4. 生态与衍生创新衍生模型众多：基于LLaMA的微调或改进模型（如Alpaca、Vicuna、Chinese-LLaMA）形成了庞大生态，方便对比不同训练策略的效果。行业应用广泛：LLaMA被广泛用于学术研究和工业场景（如聊天机器人、代码生成），案例丰富，教学素材易获取。5. 教学实操友好性数据与工具链成熟：预训练数据（公开的RedPajama等）、微调数据集（如指令数据集）和推理框架（vLLM、Text Generation WebUI）均已标准化，简化课程设计。避坑文档丰富：社区积累了大量的部署、调优经验（如显存不足解决方案），减少学生实践中的障碍。对比其他模型的局限性GPT系列：API封闭，无法深入底层原理；私有训练数据和方法。PaLM/Gemini：Google未完全开源，硬件要求极高。Bloom：虽开源，但架构和性能影响力不及LLaMA。

黄生 发表于2025-06-27 11:52:10 2025-06-27 11:52:10 最后回复柠檬🍋 2025-06-30 10:27:41
98 5

人工智能
[技术干货] 优化器（optimizer）研究现状

优化器（optimizer）领域的论文数量庞大，但真正带来显著突破的寥寥无几。1. 优化器研究的现状“数百篇论文，SOTA仅改进几次”：优化器（如Adam、SGD变体等）是深度学习训练的核心组件，每年有大量论文提出"新"优化器，但绝大多数仅在特定实验设置下表现略好，或通过"微调超参数"而非本质创新。真正的突破（如Adam、LAMB等）确实罕见。almost all optimizer papers are fake：并非指学术造假，而是许多论文通过"微创新+夸大claim"的方式灌水，缺乏普适性价值或理论深度。2. 优化器研究的瓶颈边际效益递减：当前优化器在大多数任务上已接近"够用"，进一步改进需付出极大理论/计算成本，收益却有限。实验可信度争议：许多论文在特定数据集/架构上展示"优势"，但可能未验证普适性，或存在实验设计偏差（如调参不公平）。学术生态问题：研究者为发表论文不得不追逐增量改进，形成"内卷"。3. 对研究者的启示避免跟风灌水：若研究优化器，需明确理论创新（如新的收敛性证明）或实际需求（如解决特定场景的优化难题）。严谨评估：跨任务、跨架构的benchmark比单一实验更有说服力。引用伦理：引用应服务于学术逻辑，而非堆砌参考文献。

黄生 发表于2025-06-27 11:47:25 2025-06-27 11:47:25 最后回复柠檬🍋 2025-06-30 10:27:41
45 6

人工智能
[技术干货] 昇腾CANN的核心功能介绍

CANN（Compute Architecture for Neural Networks）的关键特性华为昇腾的 CANN 是连接底层硬件（NPU）和上层AI框架（如PyTorch、TensorFlow）的核心软件层，其核心功能涵盖以下三大关键特性：应用开发提供 AscendCL（Ascend Computing Language）接口，支持开发者直接调用NPU资源，实现推理/训练任务的高效部署。典型场景：模型推理应用开发、端侧AI集成。图开发支持计算图优化（如图拆分、动态Shape适配），提升模型在NPU上的执行效率。工具链：包括图编译器（GE）、图优化器（Grapher）等。算子开发提供 TBE（Tensor Boost Engine）和 DSL（Domain Specific Language），支持自定义算子开发与性能调优。覆盖场景：适配新模型中的非标准算子或高性能优化需求。其他功能：CANN还包括调度管理、内存优化等。重要性：这三大特性覆盖了从底层算子到上层应用的完整开发链路，是昇腾生态的基石。

黄生 发表于2025-06-27 11:39:31 2025-06-27 11:39:31 最后回复柠檬🍋 2025-06-30 10:27:41
1114 6

人工智能
[技术干货] 人工智能干货合集（2025年06月）

1. AI开发平台ModelArts新功能2025年6月份新发布了9个新功能，6项是关于MaaS的功能发布(包括MCP服务的开通)，另外3项是关于资源池管理的功能。可以看到大模型服务的功能还在不断的新增和扩展之中。序号功能名称功能描述相关文档1在ModelArts Studio（MaaS）MCP广场开通MCP服务MaaS提供丰富的MCP Server资源，涵盖地理位置（高德地图、百度地图）、图像编辑（美图影像）、Web搜索（联网增强MCP）等多种优质服务，帮助您快速扩展智能应用能力。您可以在MCP广场选择开通所需的MCP服务，然后将已开通的MCP服务添加到应用中，完成发布后即可实现调用，大幅降低AI开发门槛。在ModelArts Studio（MaaS）MCP广场开通MCP服务2在ModelArts Studio（MaaS）管理应用MaaS提供应用管理功能，支持用户通过可视化操作界面，一键创建AI应用。用户可灵活选择模型服务、设置系统提示词、添加MCP等，将应用发布后进行调用。在ModelArts Studio（MaaS）管理应用3ModelArts Studio（MaaS）支持定时启停部署服务定时启停适用于需要通过停止不使用的实例并在需要使用实例时自动启动实例，来帮助降低运营成本的场景。华东二和华北-乌兰察布一支持通过FunctionGraph控制台实现定时启停，西南-贵阳一支持调用接口实现启停。使用ModelArts Studio（MaaS）部署模型服务4ModelArts Studio（MaaS）支持导出服务调用的监控数据MaaS“服务调用详情”页面提供监控数据导出功能，支持导出所有或指定监控指标折线图对应的数据。在ModelArts Studio（MaaS）查看调用数据和监控指标5ModelArts Studio（MaaS）支持在部署模型服务详情页面查看资源监控信息MaaS部署模型服务详情页面支持查看服务资源监控指标相关信息，例如磁盘读取速率、内存使用率、上行速率等。使用ModelArts Studio（MaaS）部署模型服务6ModelArts Studio（MaaS）支持通过cURL命令调用模型服务MaaS支持通过cURL命令调用预置服务或者用户部署的模型服务。调用ModelArts Studio（MaaS）部署的模型服务7Standard&Lite Cluster专属资源池支持安装插件ModelArts提供多种类型的插件，通过安装插件选择性扩展资源池功能，以满足业务需求。Standard专属资源池插件概述Lite Cluster插件概述8Standard专属资源池支持查看单个节点的运行作业针对运行中的资源池节点，在资源池详情页面的“节点”页签，可以查看单个节点的运行作业列表。查看Standard专属资源池详情9扩缩容逻辑子池时开启节点绑定的逻辑子池支持节点排水如果是开启节点绑定的逻辑子池，扩缩容时需要确认是否进行节点排水。启用节点排水后将会对扩缩容的节点进行排水，仅本次扩缩容操作生效。查看Standard专属资源池详情2. 人工智能相关直播合集6月份的重头戏是HDC2025，相关整理如下：基于昇腾的皮肤病理多模态大模型研发cid:link_8AI赋能的皮肤病精准诊疗新路径。好像基于穿刺采样的分析，针对可能导致严重后果的皮肤病，比如说癌症之类的。本来我手上是有些湿疹想来看看的，看了下觉得我这只是毛毛雨啦基于昇腾NPU的合成孔径雷达成像案例cid:link_9让昇腾在信号处理领域闪耀。智能驾驶，激光雷达已经比较成熟了，是否有一天能上SAR呢？哈哈对于MindSpore集成方面有很多很好的经验分享，很值得一看！华为开发者大会（HDC 2025）主题演讲cid:link_10HDC2025无疑是5月份的重头戏，有多个主题分享。

黄生 发表于2025-06-27 10:23:49 2025-06-27 10:23:49 最后回复柠檬🍋 2025-06-30 10:27:41
68 6

人工智能
[技术干货] 【赛题赋能】2025数博会系列赛暨华为开发者大赛贵州赛区赛题专家讲解火热出炉！

开发者们，大家好！2025数博会系列赛暨华为开发者大赛贵州赛区的赛题专家讲解环节，已经精彩呈现！本次大赛聚焦前沿技术与产业应用，本次讲解深入浅出地剖析了赛题的核心挑战与创新方向，不仅为参赛开发者们指明了思路、拓宽了视野，更激发了大家探索数智技术、解决实际问题的潜能。这不仅仅是竞技的舞台，更是创新人才与前沿技术碰撞交流的盛会。通过专家的解读，我们得以窥见未来技术突破的可能，感受贵州赛区乃至全国开发者群体的智慧与热情。现在，就让我们一同深入精彩讲解，洞察赛题背后的技术精髓与产业价值，共同期待这场“数智时代”创新人才的精彩绽放！鸿蒙应用创新赛题依托华为云全场景服务与鸿蒙分布式能力，面向智慧生活、智慧城市、智慧工业等领域开放命题。参赛者可结合AI、大数据、物联网等技术，开发端云协同解决方案，如家庭健康管家、城市环境精细化治理、工业生产智能监测等。昇腾云AI创新赛题基于昇腾云服务和MindSpore大模型能力，推动人工智能在实体经济的深度渗透。参赛方向涵盖食饮行业质量检测、文旅行业智慧导览等场景，如酱酒异物检测、智能导览规划推荐等，助力贵州产业提质增效。赋能讲解视频链接：

赛事技术圈小助手 发表于2025-06-27 09:54:09 2025-06-27 09:54:09 最后回复 yd_297350090 2025-07-15 09:08:38
169 8

大赛鸿蒙人工智能物联网
[技术干货] 多个维度解析AI领域关键

一、构建 AI 的 “认知基础”：模拟人类思维的计算框架特征提取与抽象能力传统 AI 需人工设计特征（如图像的边缘、纹理），而神经网络可通过多层结构自动从原始数据中学习特征。例如：卷积神经网络（CNN）能逐层提取图像的低级特征（边缘）到高级特征（物体轮廓），实现图像识别（如识别猫和狗）。循环神经网络（RNN）通过记忆单元捕捉文本、语音中的时序依赖关系（如语法结构），推动自然语言理解。作用：让 AI 摆脱 “人工特征工程” 的束缚，适应海量复杂数据（如图像、视频、文本）。分布式表示与知识存储神经网络通过神经元的权重矩阵分布式存储知识，而非传统规则系统的显式逻辑。例如：训练后的模型可将 “狗” 的概念编码为多个神经元的激活模式，而非单一符号，使 AI 具备鲁棒性（如识别不同姿态的狗）。作用：实现知识的隐性表达，让 AI 具备类似人类的 “联想推理” 能力（如从 “猫” 联想到 “宠物”）。二、推动 AI 技术突破：解决复杂问题的核心引擎深度学习重塑 AI 能力边界深层神经网络（如 Transformer）通过海量数据训练，在以下领域实现超越人类的表现：计算机视觉：ImageNet 图像分类准确率从 2012 年的 85% 提升至 99% 以上，推动自动驾驶（识别交通标志）、医疗影像诊断（检测肿瘤）。自然语言处理：GPT 系列模型通过千亿级参数学习，实现文本生成、问答、代码编写，如 ChatGPT 能理解复杂指令并生成连贯回答。强化学习：AlphaGo 通过神经网络与蒙特卡洛树搜索结合，击败人类围棋冠军，证明 AI 在策略游戏中的推理能力。跨领域问题的通用解决方案神经网络的灵活性使其成为跨领域 AI 任务的 “通用工具”：语音识别：LSTM-RNN 结合 CTC 损失函数，将语音信号转化为文本，支撑 Siri、语音助手等应用。推荐系统：深度神经网络通过学习用户行为与物品特征的交互，实现精准推荐（如电商商品、短视频内容）。科学计算：神经网络用于蛋白质结构预测（AlphaFold）、气候模拟，加速科学发现。三、支撑 AI 系统的 “学习与进化”：从数据中自主优化端到端学习：简化 AI 系统开发流程传统 AI 需分模块设计（如语音识别需先分帧、特征提取、解码），而神经网络可通过端到端训练直接从输入（如语音波形）映射到输出（文本）。例如：自动驾驶系统可通过 CNN 直接从摄像头图像预测方向盘转角，无需人工设计环境感知模块。作用：降低开发复杂度，提升系统整体性能（模块间协同优化）。持续进化：从监督学习到无监督 / 自监督学习神经网络支持多种学习范式，推动 AI 从 “依赖标注数据” 向 “自主学习” 发展：无监督学习：Autoencoder（自编码器）通过重构输入数据学习数据分布，用于图像去噪、特征压缩。自监督学习：GPT 系列通过 “预测下一个词” 的任务，利用海量无标注文本预训练，再微调至具体任务（如问答），大幅减少对标注数据的依赖。四、赋能 AI 应用落地：连接技术与产业需求行业智能化的核心驱动力在金融、医疗、工业等领域，神经网络通过处理复杂数据创造价值：金融风控：通过图神经网络（GNN）分析企业关联关系，预测违约风险。医疗影像：CNN 检测 X 光片中的肺炎病灶，辅助医生诊断，准确率可达 90% 以上。工业质检：神经网络识别生产线上的零件缺陷，替代人工肉眼检测，效率提升 10 倍以上。边缘计算与轻量化部署针对移动端设备（如手机、IoT 传感器），轻量化神经网络（如 MobileNet、ShuffleNet）通过参数压缩、量化等技术，实现低功耗 AI 应用：手机摄像头实时美颜（人脸关键点检测）、智能家居语音控制（本地语音识别）。五、推动 AI 理论发展：连接数学与认知科学数学与计算理论的融合神经网络的训练基于概率论（如贝叶斯推断）、优化理论（梯度下降）和线性代数（矩阵运算），推动 AI 从 “经验主义” 向 “理论可解释” 发展。例如：神经符号系统尝试将神经网络与逻辑推理结合（如 DeepMind 的神经定理证明器），解决 AI 的 “可解释性” 难题。认知科学的逆向工程通过研究神经网络的表征机制（如神经元激活模式），科学家可反向理解人类大脑的认知过程。例如：视觉神经网络的层级结构与灵长类动物视觉皮层的分层处理机制高度相似，为神经科学研究提供计算模型。总结：神经网络是 AI 的 “基础设施”从技术层面看，神经网络是 AI 实现 “感知 - 认知 - 决策” 的核心载体；从应用层面看，它是连接学术研究与产业落地的桥梁。尽管当前神经网络仍存在可解释性不足、数据依赖等挑战，但其不断进化的架构（如混合神经网络、神经符号系统）正推动 AI 向通用智能（AGI）迈进。

黄蓉老师 发表于2025-06-25 20:50:07 2025-06-25 20:50:07 最后回复小强鼓掌 2025-06-30 10:16:49
197 5

人工智能 cnn 神经网络
[技术干货] 反向传播中激活函数梯度的作用

梯度的核心用途是更新权重参数，计算激活函数的梯度是这一过程中的必经步骤。我们拆解神经网络的反向传播机制来分步骤说明：1. 梯度在神经网络中的传递链神经网络的训练本质是链式求导的过程。以简单的前馈网络为例：前向传播：输入数据经过层层加权求和（线性变换）和激活函数（非线性变换），最终输出预测值。反向传播：从输出层开始，计算损失函数对每个参数的梯度，逐步向前传递误差信号。关键公式示例：假设某一层的输出为 a=σ(z)a = \sigma(z)a=σ(z)，其中 z=Wx+bz = Wx + bz=Wx+b（线性变换），σ\sigmaσ 是激活函数。损失函数 LLL 对权重 WWW 的梯度为：∂L∂W=∂L∂a⋅∂a∂z⋅∂z∂W\frac{\partial L}{\partial W} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial W}∂W∂L=∂a∂L⋅∂z∂a⋅∂W∂z其中：∂a∂z\frac{\partial a}{\partial z}∂z∂a 就是激活函数的梯度（如Sigmoid的 σ(z)(1−σ(z))\sigma(z)(1-\sigma(z))σ(z)(1−σ(z)) 或ReLU的阶跃函数）；∂L∂a\frac{\partial L}{\partial a}∂a∂L 是上一层的误差信号；∂z∂W=x\frac{\partial z}{\partial W} = x∂W∂z=x（线性层的局部梯度）。若跳过激活函数的梯度，链式法则就会断裂，无法计算权重的更新量 ∂L∂W\frac{\partial L}{\partial W}∂W∂L。2. 激活函数的梯度设计很重要激活函数的梯度直接影响：梯度流动的稳定性：Sigmoid的梯度最大值为0.25（当 z=0z=0z=0），多次连乘后梯度指数级缩小（消失）；ReLU的梯度在正区间恒为1，缓解了消失问题，但负区间梯度为0可能导致“神经元死亡”。GELU的梯度是连续且非零的（即使对负输入），平衡了稳定性和表达能力。参数更新的方向与幅度：激活函数的梯度决定了误差信号如何反向传播。例如：如果某神经元激活函数的梯度为0（如ReLU的负输入），其权重将永远不被更新；GELU的平滑梯度则允许小幅调整，避免“死神经元”。3. 直观类比：水流管道系统将神经网络比作水管网络：权重参数：管道的粗细（可调节）；激活函数：管道中的阀门（控制水流方向和流量）；梯度：水流本身的压力信号。激活函数的梯度相当于阀门的开合程度：ReLU的阀门：要么全开（正输入），要么全关（负输入）；GELU的阀门：根据输入压力（概率）动态调节开合程度。若阀门完全关闭（梯度为0），上游管道（权重）将无法接收水流信号（梯度），无法调整自身粗细。4. 特殊案例：线性激活函数若激活函数是纯线性的（如 a=za = za=z），则 ∂a∂z=1\frac{\partial a}{\partial z} = 1∂z∂a=1。此时：梯度可以畅通无阻地反向传播，但多层线性变换会退化为单层（失去非线性表达能力）；因此，非线性激活函数+梯度计算是神经网络学习复杂模式的必要条件。5. 总结：激活函数梯度的双重角色桥梁作用：将损失函数的误差信号传递到权重参数，完成链式求导。调控作用：通过自身的梯度设计（如平滑性、饱和性），影响模型训练的稳定性和收敛速度。梯度最终用于更新权重，但激活函数的梯度是这条路径上的“必经收费站”。没有它，反向传播的“高速公路”就会中断！

黄生 发表于2025-06-25 11:54:05 2025-06-25 11:54:05 最后回复柠檬🍋 2025-06-30 10:26:51
329 7

人工智能
[技术干货] GELU简介和它的“高效性”

如果单纯从计算效率的角度来看，GELU（尤其是标准实现）涉及高阶项（如 x3x^3x3）和指数运算（如高斯误差函数近似），其计算成本比ReLU（仅需一个简单的 max⁡(0,x)\max(0, x)max(0,x)）高得多。“高效性”的差异ReLU的“高效”主要指计算速度。GELU的“高效”更多体现在模型性能上（如训练稳定性、收敛速度、最终精度），而非计算效率。它的设计目标是通过更复杂的数学形式（如概率加权）来更贴合神经网络的真实激活分布，从而提升效果。GELU的计算代价原始GELU公式（GELU(x)=xΦ(x)\text{GELU}(x) = x \Phi(x)GELU(x)=xΦ(x)，其中 Φ(x)\Phi(x)Φ(x) 是标准高斯分布的累积分布函数）需要近似计算。实际实现中（如Transformer的早期论文），GELU常被近似为：GELU(x)≈0.5x(1+tanh⁡[2/π(x+0.044715x3)])\text{GELU}(x) \approx 0.5x \left(1 + \tanh\left[\sqrt{2/\pi}(x + 0.044715x^3)\right]\right)GELU(x)≈0.5x(1+tanh[2/π(x+0.044715x3)])这涉及三次方、双曲正切等运算，计算量显著高于ReLU。为什么GELU仍被广泛使用？性能优势：在深层网络（如BERT、GPT）中，GELU的平滑性和概率特性可能减少训练中的“死神经元”问题（虽然不如Leaky ReLU或Swish等函数那样直接解决），同时在某些任务上表现更优。硬件进步的抵消：现代GPU/TPU对复杂运算（如指数、近似函数）的加速能力已大幅提升，使得GELU的计算代价相对可接受。“GELU的设计结合了ReLU的非线性特性和概率分布的平滑性，虽然在计算效率上不如ReLU高效，但其更贴合自然数据分布的数学形式，能在深层网络中提供更稳定的梯度流动，从而提升模型性能。”为什么命名为GELU？GELU（Gaussian Error Linear Unit）的名字容易让人困惑——从上面的介绍可以看出，它的数学形式更接近Sigmoid的“平滑加权”风格，而非ReLU的“硬截断”特性。那么，它的命名背后的逻辑是什么呢？ReLU的核心理念：ReLU（Rectified Linear Unit）的核心思想是 “对输入进行线性修正”（即正输入保留，负输入抑制）。它的名称强调了两点：Linear Unit：保留线性部分（(x > 0)时输出(x)）；Rectified：对负值的“修正”（截断为0）。GELU的命名逻辑：GELU的提出者（Hendrycks & Gimpel, 2016）保留了“Linear Unit”这一术语，但将“Rectified”替换为“Gaussian Error”，因为它的设计不再是简单的二值截断，而是用高斯分布的概率对输入进行加权：Gaussian Error：通过标准正态分布Φ(x)\Phi(x)Φ(x)的概率值（即输入(x)“有多可能被激活”）动态调整输出；Linear Unit：仍保留了输入(x)的线性部分（与ReLU一致，但通过概率加权）。因此，GELU的名称是对ReLU设计思想的概率化扩展，而非数学形式的直接模仿。属于“ReLU家族”GELU常被归类为“ReLU的改进”而非“Sigmoid变体”，因为它的设计目标是解决ReLU的缺陷（如死神经元、非零中心化），同时坚持以下原则：对正输入的近似线性响应（类似ReLU）；对负输入的软抑制（类似Leaky ReLU/Swish，但通过概率实现）。例如，当x→+∞x \to +\inftyx→+∞时，Φ(x)→1\Phi(x) \to 1Φ(x)→1，GELU退化为(x)（与ReLU一致）；而当(x)为负时，GELU会平滑衰减（而非直接归零）。名称与公式的“表里差异”名称（GELU）：强调它是ReLU的概率化升级版（用高斯误差替代硬截断）；公式（像Sigmoid）：因概率加权需依赖S型函数，但最终行为仍贴近ReLU的设计目标。类似地，Swish（x⋅Sigmoid(x)x \cdot \text{Sigmoid}(x)x⋅Sigmoid(x)）也因这种“平滑门控”思想被归为ReLU家族，尽管公式同样像Sigmoid。

黄生 发表于2025-06-25 10:06:15 2025-06-25 10:06:15 最后回复小强鼓掌 2025-06-30 10:16:49
538 5

人工智能

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript