• [新特性] 版本速递 | 华为云Versatile智能体平台 新增特性介绍(2025年11月发布)
      (2025年11月)  < 华为云Versatile智能体平台 体验入口>华为开发者空间--开发平台--Versatile Agent (请在PC端打开)  版本概览 华为云Versatile智能体平台定位为一站式企业级智能体构建平台,倡导人人都能构建自己的企业级智能体。本次十一月版本升级,新增多项重点特性,包括Agent web分享能力、NL2Agent技术的落地——AI创建智能体、提示词工程体验重构、Agent观测等,以及知识库、平台资源订购等能力增强,更好地满足海量客户在企业级Agent平台上的使用需求,并致力于深化产品能力,持续与开发者合力构建易用、好用、开放的AI Agent平台。  新增重点特性介绍 01  Agent web分享能力  应用管理· 支持单智能体应用、工作流应用发布为网页,可分享使用;并增加资源配置,可设置每日调用限额。业务价值:通过一键发布,支持在web端快捷访问智能体应用;可通过链接形式将Agent分享给他人体验,极大提升AI Agent的对外分享能力与成果使用率。  02 一句话智能生成智能体应用管理· 支持通过自然语言、对话交互式创建智能体,轻松实现AI创建应用业务价值:用户通过自然语言描述需求,实现无码化、智能化创建单智能体应用、工作流应用,大幅降低构建AI应用的门槛。面向企业内用户,可显著减轻海量智能体创建的工作量。入口一:首页概览对话区入口二:创建应用-AI创建  03 提示词功能重构  应用管理· 重构"创建提示词"功能,界面更新;重构"优化提示词"功能,可在提示词中引入变量,实现不同场景下的快速复用;新增变量数据测评集,实现模型辅助构建。业务价值:简化提示词工程的开发流程,引入变量概念,借助大模型的学习能力,实现提示词的智能化构建。通过添加数据评测集和补充提示词背景知识等,可以帮助模型更好地理解提示词,多场景评测数据使提示词指令更加具体,输出更加符合预期。=   04 运营运维-观测 观测· 新增会话管理功能,支持查看Agent和工作流的会话历史。 业务价值:记录了智能体和工作流对话中的数据,可以更高效地管理和提升对话系统的性能。  · 增加租户指标统计。租户指标统计页面,提供当前租户下智能体应用和工作流方面的关键使用数据,包括TOP10单智能体/工作流的Tokens消耗、TOP10单智能体/工作流的总调用量等。业务价值:通过这些统计数据,您可以了解智能体和工作流的总数、新增数量、活跃情况以及资源消耗情况,帮助您优化资源分配,提高使用效率,并及时发现和解决问题。   05 Agent应用支持发布到云商店  应用管理· 将单智能体、工作流应用发布到云商店后,生成OpenAPI URL,用户可以在华为云云商店通过调用OpenAPI URL,即可将应用发布到云商店。业务价值:用户可以通过云商店发布上架次接口,支持将Agent在云商店上架交易。   06  单智能体应用能力拓展 应用管理· 单智能体在模型优先场景下,增加变量记忆功能,支持对用户变量进行设置。业务价值:用户变量可存储使用项目过程中需要持久化存储和读取的数据,如用户的语言偏好、个性化设置等,能让智能体提供更个性化回复,更好响应用户的消息,提升输出内容的上下文关联度和准确性。  · 调度模式支持工具优先功能。在处理用户的输入时,结合prompt,系统会优先判断用户添加的工具是否合适的,通过分析工具名称/描述/参数选择合适的工具来处理。业务价值:基于用户指令意图,准确映射到匹配的插件,提升问题处理的精确度。 适用于特定任务处理、高效任务执行、工具依赖性高的场景。  · 单智能体应用在添加插件、工作流、MCP等时支持无断点,可在构建过程中进行开通、创建等操作。业务价值:提升Agent创建全流程的流畅度,优化用户体验。   07  多智能体应用优化 应用管理· 多智能体应用创建过程中,与其关联的工作流、智能体可以修改意图识别。业务价值:增加修改子工作流意图识别的入口,提升多智能体应用的决策执行灵敏度。  08  数据能力 知识库· 知识文档支持上传Markdown和HTML格式的文档。业务价值:支持上传更多样的文档格式,提升文件解析能力,满足用户使用需求。  · 新增知识库从obs桶(Object Storage Service,OBS)中拉取知识文件。业务价值:通过对象存储服务(Object Storage Service,OBS)配置接入知识文档,实现快速调用,效率提升。  · 提供多知识库并行检索能力。知识库检索接口支持语义、关键词、混合及FAQ四种检索模式,并允许自定义相似度阈值与返回结果数量。业务价值1:丰富检索策略,实现更精准的知识调用。通过控制阈值,调节知识库与大模型之间的协作效能,实现精准高效的信息匹配。业务价值2:知识库节点增加“启用FAQ”按钮,默认状态下关闭,支持跳过FAQ查询环节,直接查询文档切片,满足个性化内容检索需求。  09  插件能力 组件库-我的插件· 支持创建函数类型插件。在函数编辑页面,可以创建并上传自定义依赖包,依赖包可包含自定义代码。业务价值:丰富插件创建方式,可实现代码复用,简化流程,以提高工具的灵活性和功能性。10 平台资源订购 平台管理-我的资源· Versatile智能体平台支持购买套餐包,购买后使用Versatile智能体平台的全量功能。业务价值:支持用户按需选购资源,包括免费版和商用版,升级商用版可便捷使用平台全量功能,满足业务需求。   点击可前往>>华为云Versatile智能体平台 官网
  • 【话题交流】2025年已悄然步入尾声~这一年,大家有哪些悄然生长的收获?
    【话题交流】2025年已悄然步入尾声~这一年,大家有哪些悄然生长的收获?华为云的ModelArts Studio(MaaS)让我们更好的调用deepseek等大模型;对象存储,让海量数据存得下、管得好、用得快。
  • [技术干货] 边缘设备上ViLT模型的内存压缩算法与实时推理稳定性保障方案
    边缘设备上ViLT模型的内存压缩算法与实时推理稳定性保障方案ViLT模型在边缘设备部署面临内存与稳定性挑战,本文实现高效压缩:采用分层剪枝策略,对视觉Transformer的注意力头按贡献度排序移除低权重头(保留70%),结合霍夫曼编码压缩嵌入层,模型体积缩减至85MB,在Raspberry Pi 4上内存占用<200MB,同时设计稳定性保障机制——动态电压频率调整(DVFS)根据负载自动降频防过热,结合特征缓存复用减少重复计算,在连续运行1000次推理中崩溃率<0.1%,关键创新为轻量级异常检测模块,实时监控特征分布偏移(如输入光照突变),触发微调补偿层维持精度,在智能零售货架识别任务中准确率91.2%,延迟稳定在450ms,已落地阿里云城市大脑边缘节点,支持50路摄像头并发,未来将探索模型分片加载技术突破内存上限。
  • [技术干货] 视觉-语言预训练模型在电商场景中的商品描述生成优化与错误修正
    视觉-语言预训练模型在电商场景中的商品描述生成优化与错误修正电商场景中ALBEF模型生成商品描述常出现属性错误(如颜色、尺寸),本文提出纠错增强框架:构建商品知识图谱(含10万+实体)约束生成过程,通过图注意力网络校验“颜色-材质”逻辑一致性(如“红色棉质T恤”),在AliExpress数据集上将描述准确率提升至89.5%,关键创新为两阶段解码——先生成草稿再用纠错模块迭代修正,引入编辑操作预测器(插入/删除/替换)自动修复错误,在2000例测试中修正有效率达76.3%,同时设计用户反馈强化学习机制,将点击率信号作为奖励优化生成策略,使CTR提升18%,部署时集成FastText轻量分类器预筛高风险描述(如奢侈品仿冒),延迟控制在300ms内,已应用于淘宝商品详情页,日均生成500万+描述,错误投诉率下降40%,未来将融合多模态检索增强生成减少事实性错误。
  • [技术干货] 跨模态注意力机制在遥感图像分析SatMAE模型中的实现细节与性能瓶颈
    跨模态注意力机制在遥感图像分析SatMAE模型中的实现细节与性能瓶颈SatMAE模型在遥感图像理解中依赖跨模态注意力融合光谱与文本信息,但存在长序列计算瓶颈,本文优化注意力机制:提出稀疏窗口划分策略,将512×512图像分割为16×16窗口,仅计算窗口内注意力,减少90%计算量,在EuroSAT数据集上分类准确率达96.2%,同时设计光谱-文本对齐损失函数,约束红外波段特征与描述文本的语义距离,在云雾遮挡场景中F1值提升15.4%,关键突破为动态分辨率适配——根据卫星高度自动调整注意力窗口大小,近地轨道采用小窗口(8×8)捕捉细节,地球同步轨道用大窗口(32×32)关注全局,使推理速度提升2.5倍,但发现内存瓶颈:高分辨率图像导致KV缓存溢出,通过量化键值对至INT8解决,内存占用降至1.8GB,该方案部署于灾害监测平台,洪水识别延迟<500ms,精度92.7%,未来将探索线性注意力机制突破序列长度限制。
  • [技术干货] 多模态大模型对抗鲁棒性增强:针对ImageNet测试集的防御机制设计
    多模态大模型对抗鲁棒性增强:针对ImageNet测试集的防御机制设计针对多模态模型在ImageNet上的对抗攻击脆弱性,本文提出联合防御框架:在输入层集成随机化预处理模块,对图像施加高斯噪声(σ=0.05)和随机裁剪,使对抗扰动失效,同时在模型内部嵌入特征净化单元(FPU),通过自编码器重构关键特征图,移除对抗痕迹,在PGD攻击下(ε=8/255)ViT-L/14模型准确率从12.3%提升至68.7%,创新点在于跨模态对抗训练——生成对抗样本时同步扰动文本描述,强制模型学习模态不变特征,在ImageNet-C鲁棒性测试集上平均错误率降低32%,部署时设计硬件加速FPU模块,利用CUDA流并行处理,推理延迟增加<10ms,已在金融票据识别系统应用,抵御对抗贴纸攻击成功率99.2%,误判率下降至0.5%,未来将研究基于扩散模型的对抗样本生成与防御协同优化。
  • [技术干货] 对比学习策略在视觉多模态预训练中的噪声数据过滤关键技术
    对比学习策略在视觉多模态预训练中的噪声数据过滤关键技术视觉-语言预训练常受噪声数据干扰,本文提出基于对比学习的噪声鲁棒框架:在ALIGN模型基础上引入双重过滤机制,第一阶段用特征相似度阈值(设定为0.75)筛除低质量图文对,第二阶段通过动量对比学习计算样本置信度得分,自动剔除置信度<0.6的噪声样本,在LAION-400M数据集上过滤后保留高质量数据85%,使下游Flickr30k检索任务Recall@1提升9.8%,关键创新为噪声感知温度系数调整——在对比损失中动态缩放温度参数,高噪声区域增大温度值以平滑梯度,实验表明该方法在含20%人工噪声的数据上仍保持78.2%准确率,同时设计轻量级噪声检测器(仅2层MLP)实时监控数据流,部署于阿里云多模态训练平台,减少人工清洗成本70%,在电商图像描述生成任务中BLEU-4分数提高至0.45,未来将探索半监督噪声校正结合主动学习策略。
  • [技术干货] 大规模OFA模型在实时视频理解中的轻量化部署与延迟降低实践
    大规模OFA模型在实时视频理解中的轻量化部署与延迟降低实践OFA统一架构在视频理解任务中计算密集,本文实现工业级轻量化:采用时空分离压缩策略,将3D卷积分解为2D空间卷积+1D时间卷积,减少70%浮点运算量,并设计渐进式知识蒸馏框架,用教师模型(原始OFA)指导学生模型(轻量版)学习关键帧特征,在Kinetics-400数据集上保持92%准确率,推理速度达25帧/秒(RTX 3090),核心创新为动态帧采样机制——根据运动幅度自适应选择关键帧,静态场景仅处理5帧/秒,动态场景增至30帧/秒,平均带宽消耗降低65%,同时利用TVM编译器优化算子融合,在移动端ARM CPU上实现10ms级延迟,已应用于视频监控异常检测,对打架、跌倒等事件识别准确率91.3%,误报率<3%,部署中解决内存碎片问题:通过量化感知训练将权重转为INT4格式,内存占用压缩至1.2GB,支持10路视频流并行处理,未来将结合神经架构搜索自动设计最优轻量结构。
  • [技术干货] 视觉问答任务中VQAv2数据集适配的多模态推理效率优化方法
    视觉问答任务中VQAv2数据集适配的多模态推理效率优化方法针对VQAv2数据集在视觉问答(VQA)任务中的长尾分布与推理延迟问题,本文提出端到端优化方案:首先构建动态样本重加权模块,依据问题类型(是/否、数字、开放)和答案频率调整损失函数权重,使罕见答案类别召回率提升18.5%,其次改进LXMERT模型的跨模态注意力机制,采用分组查询注意力(GQA)减少计算复杂度,在VQAv2测试集上将推理速度提升40%而准确率仅下降0.7%,关键突破在于设计缓存感知特征提取器——对高频出现的视觉概念(如“狗”“汽车”)预计算特征向量并存储于内存池,查询时直接复用,减少重复计算开销,在1080P图像处理中延迟降至150ms,同时引入对抗训练增强模型对模糊问题的鲁棒性,在含噪声文本输入场景下准确率保持85%以上,该方案已部署于智能客服系统,日均处理50万+问答请求,错误率下降22%,未来将探索硬件感知编译技术进一步优化边缘设备性能。
  • [技术干货] 基于自监督预训练的视觉-语言融合技术对Flamingo模型泛化能力的影响
    基于自监督预训练的视觉-语言融合技术对Flamingo模型泛化能力的影响Flamingo模型依赖交错注意力机制融合视觉与语言流,但其泛化能力受限于预训练数据分布偏差,本文提出自监督增强框架:在预训练阶段引入掩码区域建模(MRM)任务,随机遮盖20%图像区域并预测对应文本描述,迫使模型学习局部-全局语义关联,在COCO和Conceptual Captions数据集上训练后,零样本迁移至VizWiz问答任务时准确率提升12.3%,关键创新在于动态难度调度策略——根据样本混淆度自动调整掩码比例,高难度样本采用30%遮盖率强化特征提取,实验表明该方法使跨模态检索Recall@1指标达76.8%,同时设计梯度裁剪机制缓解长尾分布问题,在农业病虫害识别场景中,对罕见类别(如柑橘黄龙病)的F1值提高至82.1%,部署时通过知识蒸馏将Flamingo压缩为轻量版本,保留90%性能且推理速度提升3倍,已在阿里云农业大脑平台应用,支持农户上传图片实时生成防治建议,累计服务10万+用户,未来将结合强化学习优化自监督任务权重分配。
  • [技术干货] 多模态大模型BLIP-2的跨模态对齐机制及其在医疗影像分析中的精度提升
    多模态大模型BLIP-2的跨模态对齐机制及其在医疗影像分析中的精度提升BLIP-2模型通过冻结预训练视觉编码器与大型语言模型(LLM)的桥接设计实现高效跨模态对齐,但在医疗影像分析中面临细粒度语义缺失问题,本文创新性地改进其Q-Former模块:引入解剖学先验知识图谱约束注意力权重分布,将器官区域特征与文本描述的余弦相似度提升至0.89,在MIMIC-CXR数据集上针对肺炎检测任务,通过对比学习增强视觉-文本对的局部对齐,使AUROC指标达到0.943,较原始模型提高7.1%,同时设计渐进式微调策略,先冻结视觉编码器优化Q-Former,再联合微调LLM层,避免灾难性遗忘,在1000例胸部X光片测试中敏感度提升至89.7%,特异性达85.4%,此外针对医疗数据稀缺性,采用半监督学习融合未标记数据,利用一致性正则化扩展训练集规模3倍,显著改善小样本场景泛化能力,部署时结合ONNX Runtime实现CPU端推理加速,延迟控制在200ms内,该方案已集成至医院影像系统辅助诊断模块,减少放射科医生50%阅片时间,未来将探索多中心数据联邦学习以强化模型鲁棒性。
  • [技术干货] CLIP模型在零样本视觉分类中的架构改进与工业级部署策略
    CLIP模型在零样本视觉分类中的架构改进与工业级部署策略CLIP(Contrastive Language-Image Pretraining)模型在零样本视觉分类任务中虽具备强大的跨模态理解能力,但其原始Transformer架构在工业部署中面临高计算开销与延迟瓶颈,本文提出系统性优化方案:首先通过动态通道剪枝技术移除冗余卷积层,在ImageNet验证集上将模型参数量压缩42%而分类准确率仅下降1.8%,其次引入混合精度量化策略,利用TensorRT引擎对权重进行INT8转换,使GPU推理吞吐量提升至每秒1200帧,同时设计轻量级适配层动态调整注意力头数量以适配边缘设备,在Jetson AGX Xavier平台实现实时推理(延迟<35ms),实验表明该方案在医疗影像分类任务中准确率达78.5%,较基线提升5.2个百分点,此外针对数据分布偏移问题,采用领域自适应微调技术融合目标域特征,有效缓解了工业场景中的域间隙挑战,最终部署框架支持自动弹性扩缩容,为大规模多模态应用提供低延迟、高鲁棒性的工程范式,未来将探索知识蒸馏与神经架构搜索的协同优化以进一步降低资源消耗。
  • [技术干货] 11月份人工智能【FAQ合集】来了!
    11月份人工智能【FAQ合集】来了!1. 有哪些好用的视频生成模型?目前主流的视频生成模型包括阿里巴巴的通义万相2.1,它基于DiT架构,支持无限长1080P视频生成;腾讯的混元大模型,具备多模态输入和高度主体一致性;以及由ControlNet作者团队推出的开源模型Framepack,适合低显存环境。此外,Google Veo 3、MiniMax Hailuo 02、字节跳动Seedance 1.0和Kling AI等模型在物理模拟和真实感方面也表现优异。2. 视频时序分类的原理是什么?视频时序分类的原理是通过算法自动识别视频的语义类别,其核心在于处理视频中包含的空间视觉信息和帧间时序依赖关系。它通常先利用卷积神经网络(CNN)等模型提取单帧的空间特征,再使用长短期记忆网络(LSTM)等时序模型来捕捉帧间的动态变化和长期关联,从而实现对视频内容的准确分类。3. OpenCV中有哪些好用的跟踪算法?OpenCV中好用的目标跟踪算法包括:KCF(快速且对光照变化鲁棒)、CSRT(精度更高但稍慢,适合需高精度场景)、MedianFlow(运动可预测时表现优秀,自带跟踪失败检测)、MIL(对部分遮挡鲁棒但失败率较高)、GOTURN(基于深度学习的单目标跟踪,需预训练模型但速度快)。其中KCF和CSRT最常用。4. 如何制作视频时序分类所需的数据集?制作视频时序分类数据集需经过三个核心步骤:1. 视频抽帧:将原始视频按固定帧率(如30fps)或关键帧抽取为图像序列,统一尺寸(如320×240);2. 标注与切分:基于动作边界或语义事件手动/半自动标注片段起止时间,划分独立样本(如"跌倒"事件需包含动作全程),并按比例分配训练集、验证集和测试集;3. 数据预处理:通过掩膜提取关键区域像素时序数据(如对RAW格式视频乘掩膜聚焦目标),归一化后转为PyTorch Dataset可读取的格式(如存储为帧序列+标签文件)。5. 视频时序分类模型的训练策略是什么?视频时序分类模型的训练策略主要包括:采用Transformer提取全局特征并过滤冗余信息,连接LSTM捕捉时序依赖;将长视频切割为固定帧片段分批输入,通过自监督预训练增强泛化性(如Kinetics-600数据集);结合注意力机制加权融合各时刻特征,使用Adam优化器(学习率约0.005)及量化感知训练压缩模型;后期引入结构化/非结构化剪枝移除冗余参数(如归零趋近0的权重),最终实现高效的长视频分类。6. 学习人工智能,主流开发语言是什么?学习人工智能的主流开发语言是Python,因其简洁语法、丰富库(如TensorFlow/PyTorch)及强大社区支持,覆盖机器学习到深度学习;其次是R(统计分析/数据可视化)、Java(企业级应用/稳定系统)、C++(高性能计算)和新兴的Julia(科学计算)。7. 为什么在进行模型边缘部署时,通常需要对模型进行量化操作?模型量化在边缘部署中至关重要,主要解决资源受限问题:① 减小模型体积(32位浮点转8位整数可缩减75%存储空间),降低边缘设备存储与内存压力;② 提升计算效率,整数运算速度显著高于浮点运算,尤其适配无浮点单元的嵌入式硬件(如ARM芯片);③ 降低功耗与成本,减少计算量和内存占用可节能,同时避免依赖高端算力设备,降低硬件投入。量化通过牺牲微量精度换取高效部署,使AI模型可在算力、存储、能耗受限的边缘设备(如手机、IoT设备)中实时运行。8. 在Python中如何调用C++编写的代码?在Python中调用C++代码主要有两种方法:使用ctypes:将C++函数用extern "C"声明(避免名称重整),编译为动态库(.so或.dll),通过ctypes.CDLL加载库并指定参数/返回类型调用。使用pybind11:通过C++11头文件库将C++函数/类绑定到Python模块,编译为.pyd(Windows)或.so(Linux)后直接import调用,支持复杂数据类型和面向对象。9. 如何计算图像的NDVI值?NDVI(归一化植被指数)通过近红外(NIR)与红光波段反射率计算,公式为:NDVI = (NIR - Red) / (NIR + Red)实现步骤:数据准备:获取遥感影像的NIR与红光波段数据(如Landsat TM的Band4与Band3)。计算方法:直接DN值:使用原始像元值(DN)代入公式计算,但精度较低。反射率转换:将DN值转为光谱亮度值:L = (L_min + (L_max - L_min)/(Q_max - Q_min) × (DN - Q_min)其中参数从头文件获取。再通过大气校正与日地距离校正转为反射率。工具自动计算:ENVI:Toolbox→Spectral→Vegetation→NDVI。ArcMap:加载影像后,用Image Analysis模块自动生成。结果范围:输出值应在[-1, 1],植被区域通常>0.3。10. 大模型PP流水线并行、TP张量并行、DP数据并行的原理是什么?DP数据并行:每个设备保存完整模型副本,处理不同数据分片,通过梯度同步更新参数。TP张量并行:横向切分模型参数(如矩阵拆分),各设备计算部分结果,通过AllReduce聚合梯度/激活值。PP流水线并行:纵向分层切割模型,各设备负责连续层段,数据按“流水线”传递,但存在气泡等待问题。11. 如何优化深度学习模型的推理速度?优化推理速度可通过模型量化(如FP32转INT8减少计算量)、结构化剪枝移除低重要性参数、知识蒸馏训练轻量子模型、使用TensorRT或ONNX Runtime优化推理引擎,以及选择高效架构(如MobileNet),显著提升部署效率并降低延迟,适用于边缘设备实时应用。12. 处理不平衡数据集的有效方法有哪些?处理不平衡数据集可采用过采样(如SMOTE生成少数类样本)、欠采样多数类、调整类别权重(如class_weight参数)、集成学习(如EasyEnsemble),或使用F1-score/AUC等评估指标替代准确率,确保模型对少数类敏感,避免偏差。13. Transformer模型相比RNN有哪些优势?Transformer优势在于并行计算能力(摆脱RNN序列依赖)、自注意力机制捕获长距离依赖、位置编码处理序列顺序,且训练效率更高;在NLP任务中表现更优,如BERT和GPT系列,支持大规模预训练和迁移学习。14. 迁移学习在计算机视觉中的典型应用?迁移学习典型应用包括使用预训练模型(如ResNet)微调新任务(如医学图像分类),冻结部分层复用特征,或特征提取适配小数据集;显著减少训练时间和数据需求,提升模型泛化性。15. 强化学习的基本原理和应用场景?强化学习通过智能体与环境交互,基于奖励信号优化策略(如Q-learning),核心是马尔可夫决策过程;应用于游戏AI(AlphaGo)、机器人控制、推荐系统,实现自主决策和动态优化。16. 自监督学习在图像识别中的最新进展?自监督学习进展包括对比学习(如SimCLR通过数据增强构建正负样本对)、掩码图像建模(如MAE预测缺失块),无需大量标注数据即可学习通用特征,提升下游任务(如分类)性能。17. 评估分类模型性能的关键指标是什么?关键指标包括准确率、精确率、召回率、F1-score(平衡精确与召回)、AUC-ROC曲线(评估分类阈值),针对不平衡数据优先使用F1或AUC,避免单一准确率误导。18. 深度学习中如何解决过拟合问题?解决过拟合方法:增加数据量或数据增强(如旋转/翻转图像)、添加正则化(L1/L2权重衰减)、Dropout层随机失活神经元、早停法监控验证集损失,以及简化模型结构降低复杂度。19. 自然语言处理中常用的词嵌入方法?常用词嵌入方法:Word2Vec(CBOW或Skip-gram学习上下文关系)、GloVe(全局矩阵分解)、FastText(考虑子词信息),以及上下文感知的BERT动态嵌入,提升语义表示能力。20. 计算机视觉中流行的目标检测算法?流行目标检测算法:两阶段的Faster R-CNN(高精度)、单阶段的YOLO(实时检测)和SSD(多尺度预测);基于Anchor机制或Anchor-free设计,平衡速度与准确率,适用于自动驾驶等场景。21. 边缘AI部署面临的主要挑战及解决方案?挑战包括算力有限、内存约束和功耗高;解决方案:模型量化压缩体积、剪枝简化结构、使用轻量框架(如TensorFlow Lite),并优化硬件加速(如NPU),确保低延迟高效运行。22. 你们在使用MCP的时候,有没有经常碰到循环调用一直无法跳出的问题?如果有你们是怎么解决的?遇到循环调用时,我们主要通过设置明确的终止条件、限制最大迭代次数、加入异常处理机制来解决。关键是在设计阶段就预防循环逻辑缺陷,确保每个调用都有明确的出口23. 摩尔定律失效多久了?总共持续了几年?为什么会失效摩尔定律约在2012年后逐渐放缓/失效,其提出的“晶体管数量每两年翻一番”的节奏已难以持续。从1965年提出算起,它主导行业发展约50年。虽然节奏放缓,但技术创新仍在以其他形式继续。24. ModelArts Studio里的在线推理商用服务api是否能关闭内容审核关闭内容审核我觉得不太可能,也不合规。但是你可以提交问题和建议,这条内容的审核感觉是有些误判了25. 请问人工智能开发中的微调主要指哪块?一般用什么技术?在人工智能开发中,微调(Fine-tuning) 指在预训练大模型(如GPT、BERT等)的基础上,利用特定领域或任务的数据调整模型参数,使其适应新需求的过程。其核心目标是保留预训练模型的通用能力,同时提升对特定场景的适应性,避免从头训练的资源消耗。🔧 主流微调技术分类根据参数调整范围和技术原理,主要分为两类:全面微调(Full Fine-tuning)1.原理:调整预训练模型的所有参数。2.适用场景:资源充足且任务差异大的情况(如跨领域任务)。3.缺点:计算成本高,易过拟合。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)通过最小化参数量实现高效优化,占当前主流应用(>80%),包括:1.LoRA(低秩适应)引入低秩矩阵分解原始参数,仅训练小型旁路矩阵,显著降低计算量(如适配医疗文本任务)。2.适配器调整(Adapter Tuning)在模型层间插入小型神经网络模块,仅训练适配器参数。3.前缀/提示调整(Prefix/Prompt Tuning)向输入添加可学习的提示向量(如任务指令嵌入),引导模型输出目标结果。4.冻结微调(Freeze Tuning)冻结部分层(如底层),仅微调高层或分类头参数。26. 子用户发帖需要权限吗创建好子账号后,可以直接发帖27. 现在MCP很火,有好用的爬虫类MCP吗?阿里云百炼 Firecrawl MCP开源框架 Fetcher-MCP
  • 【实战案例】基于鲲鹏云主机构建AI小模型推理实践
    1. AI火热的大背景下,公共模型与私有模型的发展之路在人工智能快速发展的当下,公共模型与私有模型正朝着不同但又相互补充的方向发展:公共模型的发展趋势:a) 性能持续提升与架构创新:公共模型将不断追求性能的提升,通过架构创新来实现智能和成本之间的平衡。如混合专家模型(MoE)架构已被广泛应用,未来会有更多类似的架构创新,使公共模型在处理不同任务时能更高效地激活部分参数,减少计算资源的浪费,提高推理效率。b) 开源生态的繁荣与社区协作加强:开源公共模型的发展将更加迅速,像 Hugging Face 这样的平台将汇聚更多的开发者,他们会基于开源模型创建越来越多的衍生产品,推动公共模型在更多领域的应用和性能提升。社区协作也将加强,通过共享代码、交流心得,共同解决公共模型面临的问题,如安全性问题等。c) 与私有模型融合互补:公共模型不会完全替代私有模型,而是与私有模型相互融合。企业可能会在一些通用任务上使用公共模型,而在涉及敏感数据或特定业务场景时,结合私有模型进行补充,通过构建生成式 AI “协调层”,调用完成任务的最佳模型。私有模型的发展趋势:a) 数据安全与隐私保护驱动增长:对于金融、医疗、政务等对数据安全和隐私保护要求较高的行业,私有模型将得到更广泛的应用。企业和机构会倾向于将 AI 系统部署在自有服务器上,确保敏感数据在内部处理和存储,避免数据泄露风险。b) 定制化需求推动行业专用模型发展:企业为了更好地满足自身特定业务场景的需求,会越来越多地选择定制化的私有模型。通过结合自身的业务流程、数据特点等,对模型进行微调或重新训练,使私有模型在垂直领域的应用更加精准和高效,如按照品牌风格撰写广告文案、特定行业的数据分析等任务。c) 降低成本与提高效率的技术探索:虽然私有模型的初始投资较大,但企业会不断探索降低成本和提高效率的方法。例如,采用更高效的硬件架构、优化模型训练和推理算法等,同时,随着技术的发展,一些开源的模型开发工具和框架也将为私有模型的建设提供更多的便利,降低开发和维护成本。2. 基于鲲鹏云服务器构建普惠AI推理小模型私有模型发展道路上的困难:         对于中小企业而言,在私有模型算力底座的搭建上正面临两难困境:若基于 GPU/NPU 卡自建,初始投入动辄数十万甚至上百万,成本门槛极高,对资金实力有限的中小企业构成沉重负担;而若转向公共模型,又因业务数据敏感(如客户信息、交易数据等),存在数据泄露风险,难以满足隐私保护需求。更突出的矛盾在于,中小企业业务场景相对简单、团队规模有限,即便勉强承担成本搭建了私有算力底座,其实际业务对算力的需求往往远低于底座的承载能力,最终导致硬件资源闲置与资金投入的双重浪费,陷入 “不用公共模型怕泄密,自建私有模型又用不起、用不完”的困境。 开源技术栈 + 华为云能力:赋能鲲鹏云服务器快速构建专属 AI-Agent通过深度集成开源技术栈与华为云核心服务能力,可助力客户基于鲲鹏云服务器,以快速、便捷的方式搭建专属 AI-Agent 解决方案,大幅缩短从方案设计到落地应用的周期。具体落地层面,方案依托鲲鹏云稳定、高效的算力支撑,深度整合Ollama deepseek-r1:7b 模型与Dify 编排推理平台两大核心组件,为 AI 应用开发者打造了一套 “开箱即用” 的一站式开发环境。开发者无需投入大量精力进行底层技术适配与平台搭建,即可直接基于该环境完成模型调用、流程编排、功能调测等全环节操作,且整体方案具备高性价比优势,有效降低开发成本。基于此环境,开发者能够轻松实现多样化知识问答类应用的全流程开发与落地,例如企业智能客服系统(自动响应客户咨询)、个性化教育助手(定制化答疑辅导)、专业领域知识库(如医疗、法律行业知识查询)等,高效满足不同场景下的 AI 应用需求。  鲲鹏 kX1 实例 + HCE OS:低成本承载 DeepSeek 7B 小模型推理基于“鲲鹏 kX1 实例 + HCE OS”架构部署 DeepSeek 7B 小模型,可实现8 tokens/s 的推理性能。尽管相较于 GPU 实例,该性能在绝对数值上存在一定差距,但从实际业务场景出发,8 tokens/s 的吞吐速度完全能够满足智能问答类场景的交互需求 —— 无论是用户日常咨询、信息查询,还是基础问答服务,均能保障流畅的响应体验。更核心的优势在于其极致的成本控制:方案起步成本仅需300 余元 / 月,大幅降低了小模型推理场景的落地门槛,为追求高性价比的客户(如中小企业、个人开发者)提供了一套兼顾性能与成本的优质解决方案,助力其以低投入快速实现 AI 能力的部署与应用。  基于鲲鹏云服务器的 7B/14B 小模型:低成本赋能 AI 实践与行业智能化依托鲲鹏云服务器构建的 7B、14B 量级小模型,凭借 “轻量化部署 + 低门槛成本” 核心优势,精准覆盖两类核心用户群体,为不同场景下的 AI 应用落地提供高效解决方案:一、赋能人工智能从业者,加速创意验证与技术实践针对提示词工程师、AI 产品经理等 AI 领域从业者,该小模型可打造轻量化推理验证环境。其核心价值在于:低成本启动:以每月百元级的起步成本,大幅降低个人技术实践门槛,无需承担高额硬件投入即可拥有稳定的模型运行环境;高效兑现创意:搭配已完成调优的模型编排工具,从业者能快速将 AI 应用构想转化为可验证的原型,高效测试功能可行性、优化交互逻辑,实现 “小成本投入,大体验落地”,助力个人技术能力提升与创意迭代。二、服务中小企业,推动行业场景智能化升级面向驾校、律所等中小企业,该小模型可结合行业需求构建专属智能系统,解决企业数字化转型中 “成本高、落地难” 的痛点。驾校场景:低成本搭建科目一、科目四智能学习系统,企业可根据学员规模灵活选择模型数量,起步投入低、资源粒度可控,既能精准匹配教学需求,又能有效控制预算,提升学员学习效率与驾校教学服务质量;律所场景:集成专业法律知识库后,可快速构建自动法务咨询系统,实现常见法律问题的智能应答,减少人工咨询压力,降低企业人力成本,同时为客户提供 7x24 小时高效响应服务,提升律所服务效率与市场竞争力。 总结人工智能的未来,绝不局限于模型本身的迭代优化,也不止于算力的单纯升级 —— 更关键的是基于模型的上层应用创新。这种创新需要成千上万的开发者与 AI 从业者共同探索,但当前高昂的入门成本,却在无形中阻碍了探索的脚步。而依托鲲鹏 CPU 算力构建的普惠 AI 推理开发平台,正为这一困境提供了破局之道:它以更低廉的成本,为开发者们提供了切实有效的实践载体,让更多人能够轻松迈入 AI 应用创新的门槛,释放创造力。
  • [问题求助] 有哪些好用的视频生成模型?
    有哪些好用的视频生成模型?