-
前提:摄像机外接功放设备(比如:喇叭,音响),效果:算法播放本地音频数据,功放设备会有声音输出;下载链接:https://ysubox.cikits.com/p/aa69ef4195f62c0ea81e5728e94d1543
-
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,并对质量不佳的图像进行一系列的增强与重建技术手段,从而有效改善图像质量。图像识别以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取推理结果,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率。图像标签自然图像的语义内容非常丰富,一个图像包含多个标签内容,图像标签可识别三千多种物体以及两万多种场景和概念标签,更智能、准确的理解图像内容,让智能相册管理、照片检索和分类、基于场景内容或者物体的广告推荐等功能更加准确。 图1 图像标签示例图名人识别利用深度神经网络模型对图片内容进行检测,准确识别图像中包含的政治人物、影视明星及网红人物。翻拍识别翻拍识别是定制化图像识别的一种,基于深度学习技术及大规模图像训练,翻拍识别可准确识别出商品标签图片是原始图片,还是经过二次翻拍、打印翻拍等手段处理的非合规图片,帮助用户打造智能化业务系统,减少人力成本。低光照增强主要解决的是夜晚或光线暗区域拍摄的图像导致人眼或机器“看不清”暗光区域的场景。低光照增强可以将图像的暗光区域增强,使得原来人眼不可见区域变得可见,突显富光照增强图像中的有效视觉信息。图2 低照度增强前后对比图图像去雾主要解决雾霾对成像质量的影响。摄像机在雾霾天气拍摄照片或视频时,不可避免出现图像/视频质量不高,拍摄场景不清晰的情况。图像去雾算法除了可以去除均匀雾霾外,还可以处理非均匀的雾霾。图3 图像去雾前后对比图超分图像构建主要解决图像在成像过程中像素过少导致的视觉信息不够或者由于压缩导致的图像信息丢失的场景。超分图像重建基于深度学习算法,对图像中缺失的视觉信息进行补充,使得图像视觉效果更好。图4 超分图像重建前后对比图
-
语言与视觉的跨模态智能-研究发展状况语言与视觉跨模态领域的研究可从以下 3 个角度来进行归纳。1.1 跨模态表征学习 跨模态表征学习研究将多个模态数据所蕴含 的语义信息投影到连续向量表征空间以进行信息 融合和推理(见图 1)。与单模态表征学习(如 文本表征模型 Deep Structured Semantic Models (DSSM)、Bidirectional Encoder Representations for Transformers(BERT)等)往往只关注单一模 态数据自身的特点不同,跨模态表征学习需要同 时从多个异质信息源(例如视觉、文字、语音等) 中通过联合学习提取被研究对象的特征,并需要 将不同模态的语义信息投影到一个统一的表征空 间。之前常用模型包括 Deep Multimodal Similarity Models (DMSM)等模型,而近期在单一文本模 态 BERT 的启发下提出的一系列图像 / 视频与文本 融合的模型,比如 VL-BERT 等代表了这个方向的 最新研究进展。跨模态表征学习还包括通过建立 跨模态的统一的语义空间将信息富集的模态上学 习的知识迁移到信息匮乏的模态,比如跨模态的 小样本学习、领域自适应等。该研究方向旨在对 于缺乏标注数据、样本存在大量噪声,以及数据 收集质量不可靠的情况下,尝试将其他模态上学 习到的知识迁移到目标模态,以提高其性能。1.2 跨模态信息融合 跨模态信息融合研究如何融合不同模态的信 息,以完成复杂的跨模态任务。信息融合的研究包 括整合不同模态间的模型与特征,从而得到整合的 表征输出。跨模态融合能获取更丰富的信息,提高 模型的鲁棒性与准确性。常见的融合模型包括跨 模态紧致双线性池化 (Multimodal Compact Bilinear Pooling,MCB) 等方法。这为下游的具体应用,如 视觉问答 (Visual Question Answering,VQA),提供 了跨模态整合后的信息输入。跨模态信息融合的研 究也包括研究不同模态之间的元素 ( 比如视觉模态 中的物体、姿态,以及语言模态中的实体、概念等) 的对应关系。一方面,跨模态元素的对齐是一种更 细粒度的映射关系,可以有效帮助提升跨模态映射 任务;另一方面,跨模态数据对齐也可以帮助学习 更优的跨模态表征。例如从图像中识别出实体,并 与文本里的实体甚至知识图谱等结构化数据构建链 接关系,以帮助构建跨模态知识,以及更好地提升 跨模态信息理解。常见的跨模态对齐 (Grounding) 算法往往基于注意力模型 (Attention),包括堆栈注 意力网络 (Stacked Attention Networks,SAN), 自 底向上和自顶向下的双向注意力模型(Bottom-Up and Top-Down(BUTD)Attention) 等。1.3 跨模态智能应用 典型的语言和视觉跨模态任务,包括图像 / 视 频转文字 (Image/Video Captioning)、文字转图像 (Text-to-Image Synthesis)、视觉问答 (VQA)、跨模 态检索 (Cross Modal/Media Retrieval)、 视 觉 + 语 言导航 (Vision-and-Language Navigation)、跨模态 人机对话与交互 (Multimodal Dialogue and HumanComputer Interaction) 等。这些任务一方面驱动了 跨模态智能各方面的基础研究,另一方面也在实 际场景中得到了广泛的应用。随着跨模态研究的 深入,更多的应用还将被提出。来源: 中国人工智能学会通讯2020年第10卷第1期
-
【功能模块】【操作步骤&问题现象】1、2、【截图信息】【日志信息】(可选,上传日志内容或者附件)
-
常用的部分计算机视觉算法概览图 -看书笔记 分享一下
-
【重要】近期论坛整改,部分链接失效,请提工单获取:https://bbs.huaweicloud.com/forum/thread-46789-1-1.html大类文档分类文档名称内容简介下载链接产品相关产品资料华为HoloSens智能安防全家福华为智能安防所有产品Link机器视觉产品资料获取地址包含机器视觉所有产品的相关资料、版本、软件包Link机器视觉营销装备库包含产品彩页、宣传、营销资料Link智能安防资料书架智能安防资料书架,汇聚精品文档,工具,多媒体,赋能培训资料Link咨询求助问题求助渠道社区论坛发帖求助指导机器视觉相关问题,可选择论坛发帖求助,工作时间内,我们会尽量安排技术人员2小时内答复。Link华为云工单系统求助对SDC相关问题,优先走工单系统求助,工作时间会有华为云客服实时响应LinkRM需求电子流求助对项目对接新需求,可联系华为一线走RM电子流。LinkSDCSDC对接华为智能安防SDC 详版彩页合集可查看华为各种型号SDC规格、功能LinkSDC对接全景资料一键式获取SDK对接全部资料,提高对接效率Link摄像机SDK对接第三方平台一智能元数据对接对接指导Link多机互助(1拖N)主从设备简易请流流程对接指导LinkSDC算法移植相关FAQSDC算法移植相关FAQLink摄像机SDK对接第三方平台一SDK库问题FAQ对接指导Link算法开发SDC APP开发入门SDC算法开发必看,包括开发资料包获取,安装编译环境等LinkSDC APP开发指南官方详细开发指南Link第三方APP开发指南对接指导LinkSDC二次开发包&工具见附件SDC OS、iClient工具LinkHoloSens SDC 8.0.T2101HoloSens SDC 8.0.T2101软件包下载LinkSDC Development Kit 8.0.RC3 SDC Development Kit 8.0.RC3 软件包LinkHoloSens三云一社区操作指导HoloSens生态系统远程操作指导书Link软件定义摄像机编译工具软件定义摄像机编译工具LinkSDC APP调试工具SDC APP调试工具arch64-gdb、arm-himix200-gdbLinkWK文件精度损失对比脚本WK文件精度损失对比脚本及OpenCV库文件LinkIVE DEMO样例代码IVE DEMO样例代码LinkSDK DEMOSDC Development Kit Demo 8.0.T9 SDK DEMOLinkSDC APP开发DEMOSDC开发相关DEMO、一站式开发平台DEMOLinkLicense生成Demo指导开发者如何控制LicenseLink模型训练ModelArts使用简介ModelArts使用简介Linkcaffe-ssd训练指导对接指导Linkdarknet模型训练指导参考文档darknet模型训练参考文档Link模型转换和算法打包模型转换和打包指导模型转换和RPM打包指导LinkAI模型转换工具RuyiStudio工具下载Linkcaffe框架下的算法模型转换成NNIE上使用的模型文件流程和方法对接指导LinkWK文件精度损失对比脚本及OpenCV库文件WK文件精度损失对比脚本及OpenCV库文件Link算法调试算法调试指导算法调试指导Link算法上线商城算法上线指导算法上线指导LinkHoloSens算法商城引导HoloSens算法商城引导Link智能视觉平台南向算法HoloSens 1800HoloSens IVS1800 智能微云彩页介绍1800各种型号规格LinkIVS 1800 V100R019C50 产品文档IVS 1800 V100R019C50 产品文档LinkIVS 1800 V100R019C50 第三方A算法开发指南IVS 1800 V100R019C50 第三方A算法开发指南LinkIVS 1800 V100R019C50 第三方D算法开发指南IVS 1800 V100R019C50 第三方D算法开发指南Link升腾310(D芯片)算法模型转换移植讲解录屏升腾310(D芯片)算法模型转换移植讲解录屏LinkHoloSens 3800IVS3800 V100R019C50 产品文档IVS3800 V100R019C50 产品文档Link从X86搬迁到ARM的迁移指引鲲鹏9系列(ARM64)应用移植指南V2.0LinkAtlas 300 AI加速卡 1.0.0 应用软件开发指南 (型号 3010) 01Atlas 300 AI加速卡 1.0.0 应用软件开发指南 (型号 3010) 01LinkIVS3800 V100R019C50 彩页 华为智能视觉平台IVS3800 V100R019C50 彩页 V1.3LinkIVS3800 D算法移植DEMO演示IVS3800 D算法移植DEMO演示(不含模型转换)Link硬件环境准备ARM服务器+Atlas 300 卡物料后续华为推出在线环境Link操作系统版本CentOS_7.6_aarch64操作系统版本CentOS_7.6_aarch64LinkTaiShan 服务器 CentOS 7.6 安装指南TaiShan 服务器 CentOS 7.6 安装指南LinkEulerOS下载地址EulerOS-V2.0SP8-aarch64LinkA+D平台欧拉系统DDK安装A+D平台欧拉系统DDK安装Linkhost交叉编译环境和驱动(DDK LIB库) Device 编译环境参考DDK里面的编译工具链编译 提取码:rv87 Link算法插件开发南向算法接口描述华为智能视频云南向算法仓开放协议接口文档与在线验证平台使用指南Link南向算法开发指南华为智能视频云南向算法仓开放指南Link南向算法仓开放协议接口文档华为智能视频云南向算法仓开放协议接口文档Link视频解析南向算法集成开放套件升级研发处理工单数Link离线自验离线工具操作指导智能视频云南向算法仓离线测试工具Link在线测试在线平台操作指导华为智能视频云南向算法仓开放协议接口文档与在线验证平台使用指南LinkeSDK demo使用教程eSDK demo使用教程Link算法插件集成华为智能视频云南向算法联合测试报告汇总暂无内容Link算法发布华为智能视觉平台SDK算法发布指导暂无内容Link机器视觉平台北向应用对接公共指导平台北向对接指引智能视频云平台CloudIVS北向应用开发指引Link华为vPaaS平台开发者指南vPaaS平台南北向对接指南Link监控平台VCN eSDK API对接常见开发场景VCN eSDK对接--常见开发场景(汇总版:图片,视频,设备,告警等)Link监控平台VCN eSDK API北向二次开发对接FAQVCN eSDK API北向二次开发对接FAQLinkIVS平台北向对接FAQ汇总IVS平台北向对接FAQ汇总,包含监控平台VCN、解析平台VCMLink解析平台VCM北向对接场景化文档对接文档Link解析平台VCM北向接口DemoVCM北向接口DemoLink机器视觉生态开放实验室环境申请指导在线申请外网环境Link证书颁发智能安防SPP认证流程指导LinkHoloSens 3800 8.1.0eSDK IVS 8.1.0 接口参考(RESTFUL)监控平台VCN Restful北向接口文档LinkIVS3800 8.1.0 北向外部接口描述解析平台VCM北向接口文档LinkHoloSens 3000&3800&9000 V100R019C50eSDK IVS V200R019C50 接口参考 (客户端.API)R19C50版本监控平台VCN北向接口文档,eSDK API对接LinkeSDK IVS V200R019C50 接口参考 (RESTFUL)R19C50版本监控平台视频管理VCN北向接口文档,Restful对接LinkCloudIVS 3000&IVS3800&IVS9000 V100R019C50 北向外部接口描述R19C50版本智能分析部分北向接口文档LinkeSDK_IVS_API_操作系统.zipR19C50 eSDK软件包LinkHoloSens 3000&3800&9000 V100R019C20eSDK IVS V200R019C20 接口参考 (客户端.API)R19C20版本监控平台VCN北向接口文档,eSDK API对接LinkeSDK IVS V200R019C20 接口文档 (RESTFUL)R19C20版本监控平台视频管理VCN北向接口文档,Restful对接Link解析平台VCM北向接口文档C20版本VCM北向接口文档LinkeSDK_IVS_API_操作系统.zipC20 eSDK软件包下载地址Link3000&3800 eSDK API Demo(C++&JAVA)3000&3800 eSDK Demo,包含C++开发语言和JAVA开发语言,C#可以参考JAVA,根据需要获取相应Demo包。 源码中包含接口调用示例源码;测试用Demo不包含源码,是编译后的可运行程序,主要用于接口功能测试。LinkHoloSens 1800 8.1IVS1800 8.1.0 接口参考(RESTFUL&GAT1400)IVS1800 8.1.0版本北向接口文档,包含视频管理和智能分析两部分接口汇总。LinkIVS1800&ITS800媒体SDK DemoIVS1800和ITS800媒体SDK的使用Demo,包含代码样例,Demo介绍文档、媒体库接口文档,以及中英文版本的Demo包。LinkHoloSens 1800 V100R019C50IVS1800 V100R019C50北向接口参考 (eSDK).rar监控平台VCN北向接口文档,通过eSDK API对接LinkIVS1800 V100R019C50北向接口参考(1).rar解析平台VCM北向接口文档LinkeSDK_IVS_API_操作系统.zip同IVS3000 R19C50 eSDK软件包下载地址,根据使用的操作系统下载对应的eSDK包Link1800 eSDK API Demo(C++&JAVA)1800 eSDK Demo,包含C++开发语言和JAVA开发语言,C#可以参考JAVA,根据需要获取相应Demo包。 源码中包含接口调用示例源码;测试用Demo不包含源码,是编译后的可运行程序,主要用于接口功能测试。LinkCloudVCN V100R003C10SPC540eSDK IVS 1.1.RC1.SPC20 接口参考 01(客户端,API)API接口文档LinkeSDK_IVS_API_V2.19.00.00_操作系统.zipeSDK软件包LinkCloudVCN V100R003C10 其他版本eSDK IVS 1.1.RC1.SPC20 接口参考 01(客户端,API)API接口文档LinkeSDK_IVS_API_1.1.RC1.SPC20_操作系统.zipeSDK软件包LinkVCN30X0/VCN5X0 CloudVCN R2版本eSDK IVS 1.1.RC1.SPC39 接口参考 01(客户端,API)API接口文档LinkeSDK_IVS_API_1.1.RC1.SPC39_操作系统.zipeSDK软件包LinkVCN30X0/VCN5X0 CloudVCN R3版本eSDK IVS 1.1.RC1.SPC20 接口参考 01(客户端,API)API接口文档LinkeSDK_IVS_API_1.1.RC1.SPC20_操作系统.zipeSDK软件包Link
-
过度喷洒除草剂给农业带来了严峻的挑战。农民每年花费250亿美元购买30亿磅的除草剂,但是,这些化学物质中的绝大部分都没有喷洒到杂草上,而是落在土壤或健康作物上,或者被雨水带走。采用传统的喷洒技术,农民因徒劳地喷洒除草剂而蒙受损失。此外,这些化学物质污染了土壤,破坏了环境,同时,杂草本身也会对除草剂产生抗药性。效率低下的原因在于喷洒器的精度差。农业技术供应商声称,智能喷洒解决方案可以将除草剂的成本降低90%,这是因为仅在杂草上选择性施用。使农民从广洒转向物联网智能喷洒的一些最突出技术是GPS导航、机器学习算法和用于杂草识别的计算机视觉。为了帮助农业企业节省资金并保护环境,让我们来看看先进技术如何为可持续、精准和经济高效的除草剂施用塑造智能喷洒解决方案。精准施用除草剂的主要挑战采用传统方法,农民面临影响除草剂施用的4个主要挑战。而技术进步可以在喷洒之前和喷洒期间解决这些挑战。1. 对除草剂风险缺乏了解通常,农民无法充分评估与除草剂施用相关的风险。农田可能位于公共设施附近,而风、雨和地下水会将化学物质传播到更广泛的区域,从而危害环境。而为农业企业提供除草剂的供应商可以在早期阶段为其产品的可持续利用做出贡献,甚至在他们向农民出售除草剂之前。解决方案:依赖于动态现场数据、现场地形热图和附近物**置的风险评估系统,可以推荐每个田间地块的喷洒计划并调整除草剂的销售策略。这将使农民能够评估农田状况和整个生态系统的潜在风险,包括滑坡、地下水污染和自然资源流失等风险。2. 延迟喷洒施用除草剂的最佳时机是在杂草冠层仍在生长时。在此阶段,只需较少剂量就可以除掉杂草。相反,后期施用增加了除草剂只喷洒在叶冠上而没有到达根部的风险,进而降低喷洒效果。解决方案:通过精确绘图和数据分析,可以在杂草上及时施用除草剂。使用无人机收集田间图像并应用算法进行识别可以在杂草生长的早期阶段规划喷洒,而绘图技术则有助于在每个田间地块上准确分配除草剂,从而实现高效喷洒。3. 田间转弯在喷洒除草剂时,农业机械会转弯,并降低车速,而除草剂的流量则保持不变。这会导致在转弯处过量喷洒。考虑到喷洒器通常每次都沿着相同的路线移动,因此相同的地点每年都会受到过量的剂量。解决方案:农业机械的GPS导航不是一个新概念,但是将转向和流体流动联系起来可能是农业技术公司的下一件大事。例如,约翰迪尔公司的ExactApply公司提供了一个由GPS控制的智能喷嘴系统,可在现场的每一个转弯处立即响应相关剂量。4. 实时杂草识别即使是精确的杂草喷洒计划也不能确保土壤和健康作物免受除草剂的侵害。广撒式喷洒器在其工作范围内向所有作物喷洒除草剂,不管是不是杂草。智能喷洒器可以识别杂草并在移动时进行喷洒,而喷洒的时间窗口约为300毫秒,这应该是在眨眼间发生。解决方案:智能喷洒最有前途的解决方案之一是实时识别杂草。计算机视觉和物体检测在这一过程中起着至关重要的作用,其工作原理如下:摄像头捕获喷洒区域的图像,人工智能(AI)引擎检测杂草,当喷洒器到达杂草时,喷头接收到信号,只在确定的地点喷洒特定剂量的除草剂。从老式喷洒到选择性喷洒技术农业技术公司一致认为,使用广撒式喷洒器喷洒杂草的传统方法需要进行重大调整。种植者希望用软件技术来改进久经考验的设备,以提高喷洒精度。对提高喷洒精度贡献最大的技术是GPS自动转向和引导、自动控制臂架高度以适应地形变化,以及根据喷洒机速度调整剂量的脉冲调制技术。智能喷洒解决方案的工作原理计算机视觉和数据分析是农业选择性喷洒的核心。这些技术可帮助喷洒设备区分植物叶类型,识别杂草并激活数据驱动的行为。利用人工智能和计算机视觉技术,智能喷洒过程分为2个主要阶段。第1阶段——识别并定义:配备摄像头的喷洒器可以捕获田地喷涂区域的实时图像。通过学习杂草外形的输入示例,机器学习算法可以识别图像中的杂草并将其标记为喷洒目标。此外,农场喷洒算法可以区分作物,并将空旷的土壤排除在喷洒范围之外,甚至可以标记杂草的特定参数,例如其种类或冠层阶段。第2阶段——决定并采取行动:一旦摄像头捕捉到图像,人工智能就会分析出是否有杂草,然后智能喷嘴就会以高精度瞄准这些杂草,并喷洒适合杂草大小和年龄的除草剂。智能喷洒解决方案用例▲博世——智能喷洒,可精确施用除草剂博世说,除草剂可以增加产量,并有助于解决目前全球人口几乎增加两倍的难题。同时,博世的目标是彻底改造农用喷洒机械。他们的智能喷洒软件涵盖了整个喷洒操作,从记录图像到为每种杂草选择除草剂类型。▲Blue River科技——-优化每个农场Blue River推出了下一代农业喷洒设备。该公司承诺为农民提供一种控制除草剂使用并防止杂草抗药性的新方法。他们强调了智能喷洒解决方案的成本效益,声称可以消除如今农民施用的90%除草剂。▲Greeneye科技——-减少喷洒量,促进生长Greeneye应用人工智能和深度学习技术,从广撒式喷洒大量除草剂转向精确而有选择性的农用喷洒解决方案,从而彻底改变了除草剂的施用过程。他们的产品旨在减少导致土壤和水污染的除草剂的施用,并解决除草剂抗药性问题,同时保护健康作物免受与喷洒相关的风险。总结智能喷涂技术可避免因广撒式喷涂而导致的除草剂浪费,从而为农民和农业企业节省资金。除了可预测和增加的投资回报之外,智能喷洒还可以防止有害剂量的除草剂喷洒在田地上并扩散到环境中。除草剂对于提高农业生产力以养活不断增长的人口至关重要。尽管如此,仍应控制其施用。物联网智慧农场喷洒软件以及可持续发展理念可以帮助农业企业明智地生产和销售除草剂,并评估所有与除草剂相关的风险。 转载物联之家网
-
【功能模块】【操作步骤&问题现象】1、2、【截图信息】网页窗口右上角出现【日志信息】(可选,上传日志内容或者附件)
-
摘要:本文主要讲述云原生时代华为云在AI基础研究、视觉预训练模型研发和行业实践,以及AI开发平台ModelArts的最新进展。近日,在Qcon全球软件开发大会(深圳站)上,华为云人工智能领域首席科学家、IEEE FELLOW田奇博士,发表了“云原生时代,视觉预训练大模型探索与实践”的主题演讲,介绍了云原生时代华为云在AI基础研究、视觉预训练模型研发和行业实践,以及AI开发平台ModelArts的最新进展。以下是田奇博士演讲要点:随着企业数字化的转型,传统企业已基本上将业务从线下搬到了云上。其中,第一个阶段是将企业的业务简单地部署到云上,我们可以称之为ON CLOUD,在这种形态下,通过资源池化,解决了IDC时代运维、部署、扩容的难题。但是,传统方法的过于厚重、烟囱式的架构,导致云对业务的价值还仅仅停留在资源供给阶段,未充分发挥出云计算的潜力。随着企业的数字化建设逐步迈入智能化阶段,企业需要充分利用云计算带来的红利,就需要让其业务能力内生于云,由现在的ON CLOUD进阶到IN CLOUD阶段,即基于云的技术架构来构建企业业务,通过构建多云、多中心的分布式架构以及敏捷、智能的企业数字化业务,将企业的数字化建设带入智能化新阶段。此时,云对业务的价值不再是简单的资源供给,还能够以应用为中心,为业务赋能。一站式AI开发平台,加速行业AI落地,践行普惠AI华为云提供了一站式的AI开发平台,加速行业AI落地,践行普惠AI。华为云对AI平台打造了四层体系,第一层是智能体;第二层是知识计算解决方案;第三层是ModelArts Pro,针对专业应用开发套件;第四层是ModelArts Fundamental。对于一站式的AI开发平台,主要聚焦在模型高效、数据高效以及知识高效。这些强大的AI服务,底层都是基于云原生容器的Volcano高效能调度引擎,而Volcano调度引擎将训练任务的效率提升了50%。华为云AI基础研究进展华为云长期扎根AI技术基础研究,在计算机视觉、语音语义、决策优化三个方向做了深入探索与研究。为此,我们针对数据、模型和知识提出了六个子计划。其中,针对模型包含两个计划,一个是针对大模型的模型摸高计划,提供极致的性能;第二是针对小模型的模型瘦身计划。针对数据提出了两个计划,一个是处理多模态的数据魔方计划;另一个是针对小样本学习的数据冰山计划。最后针对知识的高效提取,我们提出了两个计划:建造通用AI系统的万物预视计划以及学习一种新范式的虚实合一计划。在这些计划中,我们始终聚焦在模型高效、数据高效、知识高效等重点方向上。对于自主研发的一些新技术,比如自动学习、知识蒸馏、预训练模型等等,都会以即插即用的方式部署到华为云线上,助力AI行业落地。在众多AI领域中,计算机视觉具有广泛的落地场景,在智能汽车、智能手机、无人机、智能眼镜等应用都有计算机视觉算法的身影。这些年随着计算能力和5G通信技术的极大提高,以计算机视觉为代表的大批AI技术,已跨越了早期仅在研究领域取得进展的阶段,过渡到了与社会环境协同发展、共同促进的阶段。未来视觉AI技术会在千行百业进行落地,比如政府、医疗、工业、能源、交通、物流、金融等等。但是,技术落地也面临着巨大的挑战,由于AI应用的碎片化、定制化等因素,极大地限制了AI在真实环境下的落地部署。为了解决应对AI碎片化等问题,我们提出了预训练大模型的解决方案,希望能用大量无标注的数据和更大的模型来实现更通用的AI系统。在自然语言处理领域,这两年大规模预训练模型取得了突破性进展,但是预训练模型对算力有极大的需求,而且我们预计更大规模、更大参数的模型还会继续出现。因此,受到自然语言处理中预训练模型的启发,在计算机视觉中我们也希望构建通用的AI系统,为下游各种视觉任务提供一个高效的初始化模型。现在主流的学习方式有两种,一种是监督学习,一种是强化学习。监督学习需要海量标注样本,泛化能力相对比较弱,另一种是强化学习,强化学习需要海量的试错,同样缺乏通用系统所需要的可适用性、可重复性以及鲁棒性。我们认为,自监督学习是迈向常识学习的关键步骤,但是目前自监督学习在视觉任务中的应用还不够成熟。过去,在数据标注、模型训练和输出阶段,分别要做大量的重复工作。未来,我们希望可以对计算机视觉或者自然语言处理任务构建一个通用预训练模型,仅通过下游少量的标注样本进行微调就可以高效完成任务,从而大量节约开发成本。视觉预训练大模型研究和实践接下来的报告,我会介绍一下我们在预训练模型方面的工作,主要是在自监督学习过程中预训练模型的一些进展。自监督学习由于不需要任何人工标注便能够学习图像的内在表征,近年来受到了业界的极大关注。在没有人工标注的情形下,自监督学习需要预先设定一些预训练任务辅助模型学习。2016年以前,一些预训练任务推动该领域出现了一些大的进展。自监督学习主要分为两种,一种是生成式,一种是对比式,近几年最新的一些工作大多是基于实例区分的对比学习。基于实例区分的对比自监督学习在最近几年取得了极大的进展,在一些任务上刷新了现有自监督预训练任务的SOTA结果。最近我们在对比自监督学习方面有两项优化工作,首次实现了在ImageNet线性分类任务中达到全监督基线性能,并且在小样本分类上大大超越了之前的方法。然而,现有的自监督预训练模型仍然处于探索阶段,存在大量的问题未能够解决:现有的自监督预训练算法迭代缓慢,很难复制到大模型以及超大规模数据集;另外,相较于全监督学习,其特征表达在大多数下游任务上仅仅能获得与之相比拟的结果,其进一步的性能优势还有待挖掘。因此,如何利用自监督学习在超大数据集合,超大模型上获取更强的泛化性能将会是未来的发展方向。在这里,介绍一下我们最新的几个工作,在对比自监督学习框架下,我们提出了基于邻域保持的混合图像增强,在业界首次提出了利用不同图像数据增强策略提升其泛化性能。过去,对比学习通常利用同一样本的不同数据增强生成正样本集合,并且把其他样本均视为负样本的策略,将样本特征的距离拉近或者拉远作对比学习任务,而我们首次提出了选取不同正样本的方法。同时,提出了基于局部领域混合增强的技术,把多个相似样本的特征拉近,不同样本的距离拉远。我们的方法在ImageNet线性分类评估上,TOP-1的精度达到了75.5%准确率,离监督学习基线76.5%仅仅差了1个百分点。通过对预训练模型在小样本标注数据上进行微调(1%和10%标注的数据),我们的精度达到了最好的结果。接下来介绍一个我们今年刚刚完成的工作,基于等级化语义聚集的对比自监督学习框架。在上述工作的基础上,我们进一步发现即使显示地拉近语义相似性样本,特征表达的可分离特性并没有达到我们的预期目标,这限制了其泛化表征能力。自监督学习仍然存在优化困难,收敛速度慢等问题,为此,我们做了两点改进,第一,我们拓展了自监督学习算法中正样本数目,使得正样本集合能够更加高效的被聚集,同时避免受大量负样本优化的影响。第二,我们在浅层特征上引入对比自监督学习,通过精心设计的浅层优化目标加速训练过程,在浅层特征上实现了更好的可分离性,我们发现这些优势对小样本学习有极大的提升。从结果来看,我们在线性分类任务中达到了76.4%的精度,首次达到了和全监督基线相比拟的性能,而且通过将预训练模型在小样本标注数据上进行微调,在之前的结果上又得达到了新的SOTA,特别地,仅仅使用10%标注,我们在ImageNet 分类上达到了75.1%的TOP-1精度。上述两项工作都是在没有任何标签设置下完成的,更进一步,我们探索了如何把对比学习和数据标签高效地结合起来,通过引入图像真实标签来辅助对比学习,我们认为应该将自监督学习得到的表观特征和监督学习的语义特征相结合,它的本质是把表观相似和语义相似的样本距离拉近,将不相似样本的距离推远。从结果上看,这个工作在各个下游工作中(比如检测、语义分割、实例分割)的表现全面超越了以往的自监督和全监督的泛化能力。华为云的第二个核心研究方向是如何设计高效的视觉识别模型,即模型高效。在这个方向主要聚焦两个方面,第一是如何设计神经网络模型,第二是在神经网络架构搜索中,如何在原子算子层面上进行搜索。关于神经网络模型设计,最初的方式都是手工设计的,这种方式经过高速发展后,也进入了一个瓶颈,因此从2017年开始,自动的神经网络架构搜索经历了一个迅猛发展的过程,也取得了一些可喜的成绩。但是搜索出的网络也面临几个问题,第一个问题,搜索空间仍然是手工定义的;第二个,搜索的卷积算子是人工定义的,而且相比于手工设计的网络,搜索的网络可迁移性也是比较差的。我们在网络架构搜索上第一个工作是P-DARTS,提出渐进的可微分网络架构搜索算法。之前的网络架构搜索面临着搜索网络和测试网络深度不一样的问题,在较浅的搜索网络中搜索出来的架构并不适合较深的测试网络。早期的方法直接加深搜索的深度,但是会造成显存爆炸的问题,并且导致搜索不稳定。为了解决这个问题,我们提出了两个思想,一个是搜索空间近似,第二个是搜索正则化。搜索空间近似,是指采用渐进搜索策略,逐渐加深搜索的深度;同时进行链接权重的学习,把权重比较小的链接运算都扔掉,这样减少了搜索空间。搜索正则化主要是对搜索得到的一些skip connect的数量上的限制。从结果上看,我们把P-DARTS搜索的网络迁移到ImageNet上,在ImageNet分类任务上与基线方法相比提高了两个百分点。P-DARTS网络搜索算法是在P100上完成的,大概需要0.3个GPU-days。与去年同期的DARTS工作进行大致的比较,它的搜索时间是4个GPU-days,而在性能和速度都有超越的情况下,我们的方法只需要0.3个GPU-days。我们在架构搜索上的第二个工作是PC-DARTS,这是业界搜索速度最快的网络架构方法之一,其主要思想有两个,一个是采用局部连接的思想来解决网络冗余的问题,第二个是采用边正则化的思想来解决网络搜索稳定性的问题。并且,这个工作首次在大规模图像数据集ImageNet上进行了神经网络架构搜索。我们最新的一个相关工作是GOLD-NAS,渐进剪枝的单阶段可微分搜索算法。这个算法主要的一个贡献是它打破了传统可微分搜索空间的诸多限制,因此大大增加了搜索空间的容量,并提出了单阶段优化策略和渐进剪枝的优化策略。从结果上看,在扩大的搜索空间中,算法不仅能够找到绝对性能更强的网络,也能找到具有更高性价比的网络。我们第四个工作是卷积搜索,提出对卷积操作进行搜索,当前的模型搜索都是采用一些固定的卷积操作,比如1×1、3×3的卷积,这种方式限制了模型的性能。因此,为了将卷积的设计也纳入搜索的范围,这个工作提出了针对点云任务的基于数据驱动的模型搜索,同时对卷积的结构也进行了搜索,将来将进一步扩展到传统的图像领域。我们最近两年在计算机视觉三大顶会CVPR、ICCV、ECCV大概发表了近百篇文章,基本进入视觉研究领域第一梯队,极大地提高了华为在计算机视觉领域的国际竞争力,同时有一些工作也获得了最佳论文和最佳论文提名。而且最新的算法已经逐渐部署到华为的一站式AI开发平台,在一些行业得到了广泛的应用,下面再介绍一下视觉任务的进展和在行业的实践。第一个进展是图像分类技术,在ImageNet上,今年我们的分类准确率达到了85.8%,而之前谷歌最好的精度是85.5%。从今年3月份以来,我们在这方面一直保持着领先水平。第二个进展是弱标注场景下的图像分类技术。在WebVision大规模弱标注的网络图像分类比赛中,大约有5000个类别的1600万张图像,有90多支参赛队伍竞争,华为云在分类准确率上取得了业界第一的水平。我们把图像分类技术应用到了一些传统行业,比如米旗蛋糕店。结果上看,我们的技术让商品整盘识别率达到了99%以上的精度。另外,我们的模型训练时间小于一天,因此每天都可以进行模型更新,商品的识别时间也小于1秒。第三个进展是图像检测、分割技术,在业界权威的目标检测数据集MS-COCO数据集上,不论是单模型还是多模型,我们都取得了今年业界第一的成绩。我们将检测、分割技术用到了医疗智能体,在今年新冠肺炎AI-CT辅助筛查中实现了自动智能检测,而且已经在各大医院成功部署。我们第四个进展是多模态数据处理技术,相对于单模态,多模态具有天然的互补优势,比如在无人驾驶中除了图像的输入,还有激光雷达信号、GPS、图像分割的数据。在最权威的三维目标检测NuScenes数据上,我们提出的技术也取得了非常好的成绩,我们的结果比第二名领先了3.1%。同时我们将多模态处理技术用在了深圳交通智能体上,实现对红绿灯控制的智能化,在交通总量相同的情况下将平均通行车速提高了15%,将平均等待时间、延误时间下降了17.7%。最后介绍一下华为云一站式AI开发管理平台ModelArts。ModelArts有两个不同层次的版本,一个是ModelArts Fundamental,一个是ModelArts Pro。根据华为云在十多个行业常年的技术积累,ModelArts Pro开发平台主要提供五大类的专业应用开发套件,包括文字识别套件、视觉套件、知识图谱套件、多模态开发套件、自然语言处理套件,还提供了四十多个行业级的高精度预置的算法, 包含数据准备、数据处理、 模型设计、模型管理及部署等等。以上是华为云在视觉预训练模型上的一些基础研究最新进展和行业实践的案例,以及在华为云AI开放平台沉淀的一些工作。谢谢!
-
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。通过计算机视觉,电脑将处理更适合人眼观察或传送给仪器检测的图像。计算机视觉的主要任务是通过对采集的图片或者视频进行处理以获得相应场景的三维信息。 随着各级政府大力推进“平安城市”建设的过程中,监控点位越来越多,视频和卡口产生了海量的数据。尤其是高清监控的普及,整个安防监控领域的数据量都在爆炸式增长,依靠人工来分析和处理这些信息变得越来越困难,利用以计算机视觉为核心的安防技术领域具有海量的数据源以及丰富的数据层次,同时安防业务的本质诉求与AI的技术逻辑高度一致,从可以从事前的预防应用到事后的追查。
-
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。通过计算机视觉,电脑将处理更适合人眼观察或传送给仪器检测的图像。计算机视觉的主要任务是通过对采集的图片或者视频进行处理以获得相应场景的三维信息。 随着各级政府大力推进“平安城市”建设的过程中,监控点位越来越多,视频和卡口产生了海量的数据。尤其是高清监控的普及,整个安防监控领域的数据量都在爆炸式增长,依靠人工来分析和处理这些信息变得越来越困难,利用以计算机视觉为核心的安防技术领域具有海量的数据源以及丰富的数据层次,同时安防业务的本质诉求与AI的技术逻辑高度一致,从可以从事前的预防应用到事后的追查。
-
人工智能如何解决行业痛点· 安防:利用计算机视觉技术和大数据分析犯罪嫌疑人生活轨迹及可能出现的场所· 金融:利用语音识别、 语义理解等技术打造智能客服· 医疗:智能影像可以快速进行癌症早期筛查, 帮助患者更早収现病灶· 交通:无人驾驶通过传感器、 计算机视觉等技术解放人的双手和感知· 零售:利用计算机视觉、 语音/语义识别, 机器人等技术提升消费体验· 工业制造:机器人代替工人在危险场所完成工作 ,在流水线上高效完成重复工作大家认为AI还可以在哪些领域大展身手呢,一起聊聊啊
-
目前有这样的需求:需要直接使用opencv读入img然后拷贝至device做inference,但是不工作使用了如下的代码,请问是哪里不对?? 【其他部分与sample的示例代码一致】APP_ERROR ret; cv::Mat img = cv::imread("../ims/multiface.jpg"); if (img.rows % 2 != 0 || img.cols % 2 != 0) { cv::resize(img, img, cv::Size((img.cols / 2) * 2, (img.rows / 2) * 2)); } cv::resize(img, img, cv::Size(960, 544)); img.convertTo(img, CV_32FC3); void *devicePtr = NULL; size_t deviceMemSize = img.cols * img.rows * 3 * sizeof(float); ret = (APP_ERROR) aclrtMalloc(&devicePtr, deviceMemSize, ACL_MEM_MALLOC_NORMAL_ONLY); if (ret != APP_ERR_OK) { LogError << "Failed to malloc output buffer of model on dev, ret = " << ret; return ret; } ret = (APP_ERROR) aclrtMemFlush(&devicePtr, deviceMemSize); if (ret != APP_ERR_OK) { LogError << "Failed to aclrtMemFlush output buffer of model on dev, ret = " << ret; return ret; } ret = (APP_ERROR) aclrtMemcpy(devicePtr, deviceMemSize, img.data, deviceMemSize, ACL_MEMCPY_HOST_TO_DEVICE); if (ret != APP_ERR_OK) { LogError << "Failed to copy output buffer of model from host to dev, ret = " << ret; return ret; } std::vector<void *> inputBuffers({devicePtr}); std::vector<size_t> inputSizes({deviceMemSize}); ret = modelProcess_->ModelInference(inputBuffers, inputSizes, outputBuffers, outputSizes); if (ret != APP_ERR_OK) { LogError << "Failed to execute ModelInference, ret = " << ret; return ret; } return APP_ERR_OK;请同志们指教。 可加我微信: leoluopy 快速了解详情
-
深度学习中感受野(receptive fields) 是指卷积神经网络每一层输出特征图上的像素点在原始输入取到图像上映射的区域大小。在深度学习的其他领域已单个经采用通过增加感受野的方式来提高性能,比如在息传**姿态估计中利用大的感受野来学习长距离的空间位置关系,建立内隐空间模型( implicit spatial model)。 在目标检测领域针对小目标的信息限制,同样可以通过增加视觉感受野来保证特征图的尺寸,从而提高网络的特征提取能力得到更多的目标信息,进而提高小目标物体检测精度。对于这个问题总感觉半懂不懂,大家有谁可以帮忙解释一下嘛~
-
人眼可以自动变焦看清远近的图像,根据光线自动调整瞳孔就是入光量,
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签