-
在云上使用MindSpore1、沙箱实验打开沙箱 链接,即可开始体验。今天咱来得早,名额较为充足。打开实验桌面。我们看到实验桌面有MNIST数据集和实验脚本。创建桶参数如下:①复制桶配置:不选②区域:华北-北京四;③桶名称:ms-lenet-train-0501;④数据冗余存储策略:多AZ存储⑤存储类别:标准存储;⑥桶策略:私有;⑦默认加密:关闭;⑧归档数据直读:关闭;其他参数默认(OBS桶名称需全局唯一,若出现以下提醒,自定义其他桶名称即可。需要记住此步骤中创建的桶名称,以便后续使用。)在创建的桶新建一个文件夹上传test和train修改lenet.py如下,将通道数改为1,然后保存退出修改dataset.py如下然后,将脚本上传,就可以开始实验了,此处不再赘述。2、Ascend910训练和Ascend310推理步骤1:准备训练数据1. 单击样例数据集 链接,跳转至“AI Gallery > 数据 > 四类花卉图像分类小数据集”页面。2. 单击“下载”跳转至下载页面详情页。1. 在下载详情页,填写参数。– 下载方式:选择“对象存储OBS服务”– 目标区域:选择“华北-北京四”– 目标位置:请选择一个空的OBS目录步骤2:订阅算法目前“ResNet50”算法发布在AI Gallery中。您可以前往AI Gallery,订阅此模型,然后同步至ModelArts中。1. 在这里图像分类 订阅算法,2. 前往控制台,选择北京四步骤3:使用订阅算法创建训练作业(Ascend 910)但是,这个算法居然没有任何的发布版本,在5月1日订阅的根本创建不了训练任务。。。官网的文档又欺骗了我。还好,爷有预备的算法:图像分类-ResNet v1 50 在新版训练作业环境下创建训练作业,参数如下• “算法>我的订阅”:• “数据来源”:选择刚刚的数据集选择一个GPU训练完成步骤4:模型转换使用订阅算法训练所得的模型,需通过转换功能,转成适用于Ascend芯片的格式,即“om”格式。1. 在ModelArts管理控制台,选择“AI应用管理 > 模型转换”。2. 在模型转换作业列表页面,单击“创建任务”。在创建转换任务页面中,参考如下说明填写关键参数。本次使用的算法为ResNetv150算法(图像分类/TensorFlow/Ascend910训练),模型转换任务与ResNet50算法不一样的参数如下所示。“输入框架”:选择“TensorFlow”。“转换输入目录”:请选择训练作业输出路径下的“<输出路径>frozen_gragh”目录。“输出框架”:选择“MindSpore”。“转换输出目录”:请选择训练作业输出路径下的“<输出路径>/om/model”目录。“转换模板”:使用“TF-FrozenGraph-To-Ascend-C32”模板进行模型转换。“输入张量形状”:“images:1,224,224,3”“输入数据格式”:“NHWC”“转换输出节点”:“logits:0”万岁,成功啦~乌拉~步骤5:创建AI应用模型转换为om格式后,可采用“从模板中选择”的方式,创建AI应用。1. 在ModelArts管理控制台,选择“A应用管理 > AI应用 > 我的AI应用”。2. 配置如上步骤6:部署为在线服务(Ascend 310)AI应用创建成功后,可将此服务部署为在线服务,在部署时可使用Ascend 310芯片资源。1. 在“AI应用管理 >AI应用 >我的AI应用”列表中,单击AI应用名称进入详情页,单击右上角的“部署 > 在线服务”>在线服务”**页面单击“创建”,进入部署页面。2. 在“部署”页面,参考如下说明填写关键参数。1. 2. 3. 在线服务部署完成后,您可以单击服务名称进入服务详情页。– 访问服务:了解调用指南,获取API接口地址,可通过postman或使用curl命令发送请求,访问在线服务 。– 预测:单击“预测”页签,上传一个测试图片,进行预测。上传了一张webp,发现失败了。看来不能识别呢。上传了jpg就可以了。(第二个结果有点离谱;但这个不能怪我们的模型,要怪只能说我们的美女长的太像玫瑰了呢)步骤7:清除资源如果不再需要使用此模型及在线服务,建议清除相关资源,避免产生不必要的费用。• 在“在线服务”页面,“停止”或“删除”刚创建的在线服务。• 在“AI应用”页面,“删除”刚创建的AI应用。• 在“训练作业New”页面,“删除”运行结束的训练作业。• 进入OBS,删除本示例使用的OBS桶及文件夹,以及文件夹的文件。把我们可爱的在线服务停止吧。3、如何参与社区建设?最重要的就是提交PR啦。那怎样提交PR呢?新建一个远程主仓创建一个文件,并用qmckw账号fork到qmckw下clone到本地我们现在想修改一下这个hello.pygit log # 查看目前的commitgit status#查看状态,我们已经修改了hello.pygit remote -v # 查看远程仓是否配置了主仓远程仓库并未配置主仓git remote add upstream https://gitee.com/csckw/remote-main-warehouse.gitgit add .git commit -m "first"这个时候,倘若我们又要修改这个py文件。这个时候,我们可以看到有两个commit,需要合并为一个。使用如下的命令。git rebase -i HEAD~2 将第二行的pick改为小写字母s保存退出后,进入如下界面,不用修改,直接i-esc-:q即可这个时候执行git log,就可以看到我们的commit已经合并为1个了。如果我们觉得可以在修改,比如下面我们再次修改了py文件。这个时候,用如下的命令,可以直接修改这个commit,而不用合并。git add .git commit --amend这个时候,代码已经上传到我们的远程主仓了。现在到我们自己的远程主仓界面,提交PR这个时候,在csckw也就是仓库拥有者的文件下提交审核。这样,这个pr变成了已合并的状态。任务就圆满完成了。同理,你可以去MindSpore的仓库提交PR,这里就不演示啦。CSDN分享:【MindSpore易点通】在云上使用MindSpore:云上训练和提交PR_irrationality的博客-CSDN博客
-
近年来,随着数字化、信息化、智能化的高速发展,我国高校已具备智慧高校的雏形,可由于学生管理、校园安防一直都是国家、社会、学校关注的重点,在传统管理模式中常常会因疏忽而导致学生人身、财产安全的隐患发生。为此,正确引导智慧高校的良性发展,成为了校方与企业的当务之急。高校宿舍作为学生的主要生活场所,一直是高校管理工作中最为重要组成部分。对校方而言,宿舍门锁防盗性差、安全性低,则容易引发失窃事件,不仅难以精准排查,更容易影响校方声誉;对辅导员而言,学生晚归、未归、私下换寝等问题缺乏有效率的解决措施,大大增加了自身的工作量;对学生而言,宿舍钥匙易丢失、被复制,存在严重的财产安全隐患,导致学生缺乏安全感;对宿管人员而言,迎新与离校的钥匙丢失、更换,都在无形中增加管理成本。正所谓,良好的宿舍管理是优质教育的重要保证,近些年教育部接连出台《教育信息化2.0行动计划》、《关于加强高等学校学生公寓管理的若干意见》等相关文件,明确指出各地、各级教育行政部门和高校,要把改进和加强宿舍管理作为高校后勤社会化改革过程中的一项重要任务,并逐步建立健全切实可行、科学合理的管理机制,要求高校宿舍管理积极探索新模式,切实加强校园宿舍的安全工作。值得一提的是,国家重视智慧高校管理并非空穴来风,而是有理有据的。据教育部发布的2020年全国教育事业发展统计公报显示,全国共有各级各类学校53.71万所,较上年增长1.33%;各级各类学历教育在校生2.89亿人,比上年增加674.48万人,增长2.39%。随着院校和在校生的增长,宿舍管理已经成为智慧高校建设中必不可少的一环。由此可见,政府推进智慧高校建设,不仅能规范高校宿舍智能化管理,为师生群体营造安全便捷的学习生活环境,还可以通过复制粘贴提升我国各地区智慧高校建设的进程,为推动各地区智慧高校建设提供参照和强大助力。针对高校宿舍管理乱象,指芯科技率先推出智慧校园整体解决方案,依托智能硬件、物联网、5G通信技术(NB-lot)、大数据分析等技术,通过“SaaS云平台管理系统+智能硬件”的强强联合,整合校方、学生、宿舍三方信息,全面融入高校管理的业务流程,从而实现授权追溯、集中管控、开关门记录、数据采集、远程操作、晚未归统计等主要功能。简单来说,宿管人员可通过SaaS云平台管理系统,实现门锁一键授权管理,采集录入学生身份信息ID,当学生入学、换寝和离校时,实时掌握宿舍情况,师生可以凭借人脸识别、指纹、密码、蓝牙等方式开锁,无需再分配传统钥匙,杜绝钥匙丢失、被复制等安全风险。同时,在日常的宿舍管理中,师生进出宿舍的时间、次数和开门方式,也可以通过后台实时查询。并且智能门锁还拥有防撬、逗留、电池低电量等告警功能,立即将告警信息实时上传至平台,及时提醒宿管人员进行处理,让宿舍安全更有保障。另外,宿舍楼的门禁依靠AI人脸识别技术,可时刻保障学生出入安全,防止外来不良分子混入学生宿舍对学生人身、财产权益产生侵害。为了有效改善宿舍管理,提升宿舍管理效率,防止学生久出不归,久进不出等安全情况的发生,智慧管理系统会在学生超过48小时未归未出时,第一时间通知宿管人员联系学生,将安全隐患扼杀。对此,指芯科技推出智慧校园整体解决方案,以建设智慧高校为出发点,贴合宿舍管理各类诉求,加强了高校安全管理、降低风险隐患,构建校园信息化数据管理平台,又实现了对重点区域统一管理,起到实时预警,打破传统被动防御弊端,让高校宿舍安全达到可视化、智慧化管理。指芯科技自成立以来一直致力于以安全核心技术驱动人工智能产业应用,作为中国领先的AIoT智慧物联技术服务商,拥有叁百余项自主核心专利与完整自主知识产权体系,依托智能制造的扎实基础,出色的服务能力,是国内最早实现规模化、产业化的物联安全高科技企业,通过“算法芯片、物联终端、SaaS云平台”三项核心技术加持,助力构建“以人为本”的智慧场景。此次,指芯科技推出智慧校园整体解决方案,不仅是为响应物联网新型基础设施建设三年行动计划,还为建设智慧高校起到了不可多得的作用,并以AI人脸识别技术作为身份识别管理的立足点,融合“物联网和大数据”多项能力,助力校园宿舍智慧化管理,全面提升智慧高校管理质量。
-
疫情当前,还在为无法赶到仓库现场看货而发愁吗?融资抵押,还在为无法保证货权实时可控而苦恼吗?风险管控,还在为无法规范装卸货流程而无可奈何吗?别担心!厦门自贸片区企业象屿集团自主研发打造的象屿物联网平台已经上线!目前象屿已在18个自营仓库落地了数字化仓库的改造升级并将逐步覆盖所有自营和外协库点连接设备超1000台有效电子围栏超1000个AI识别准确率高于90%让货权实时可控、尽在掌握!● 物联网平台解决方案物联网 + 边缘计算 + A I象屿物联网平台采用全栈自研的方式,构建物联网+边缘计算+AI的“云、边、端”三体协同智能网络平台,可提供安全可靠、低延时、低成本、弱依赖、易拓展的本地计算服务,实现不同协议、不同数据格式的设备统一配置和管理,同时结合大数据、智能AI视频算法,进行场景落地。● 亮点聚焦可视化、可预警、可追溯物联网统一监控平台多平台视频直播服务,轻松实现远程在线查仓。智慧物流平台、“屿链通”数字供应链金融服务平台、微信公众号等多个应用系统,借助物联网平台支持货主、资方远程查仓,即时预警。基于视频监控的电子围栏借助电子围栏技术,远程在线盘点。用户可通过围栏绘制实现在库质押货物单与实物相关联,精准做到在线盘点,不受空间、时间限制,操作简单,事半功倍!AI智能预警AI智能识别,真正让货物“看得清,管得住”。物联网平台通过AI视频识别算法,智能化捕捉和实时识别围栏内的异常行为(如:叉车异常闯入/人员异常闯入/画面异动报警等),实时存储异常视频并发出预警。AI智能预警比物理光栅更便捷、更智能、更精准。除了上述功能外,平台还提供了设备管理、边缘设备管理、历史画面对比、数据标注,AI模型管理等丰富功能。象屿物联网平台将引进IoT领域前沿技术、链接更多传感设备、挖掘更深层次的数据价值,释放和发挥出最大动能。未来厦门自贸委将携手象屿集团不断探索数字化技术和业务实现供应链服务数智化升级为数字自贸区建设持续赋能
-
使用VSCode连接到云上开发环境后,用户就可以开发AI应用了。云上AI应用开发环境中预置了丰富的开发工具,用户可以通过左侧导航栏的ModelArts图标使用相关功能。本章节通过创建并运行两个不同类型的AI应用工程,帮助开发者快速了解应用工程的组成及运行方法。创建应用工程使用VSCode连接到云上开发环境后,需要先创建应用工程。单击VSCode左侧导航栏的ModelArts图标,单击“Create Project”创建工程。如果项目列表中已经有工程了,则点击工程列表中右上角的“+”创建工程。图1 创建工程目前插件中内置了车辆检测(vehicle_detection)、行人检测(pedestrian_detection)以及空工程(empty)三个样例,输入工程名称、工程路径以及选择工程模板,这里以车辆检测“vehicle_detection”模板为例,点击“Confirm”创建工程。图2 新建项目创建完成后右下角会弹出信息,单击“yes”打开工程。图3 打开工程工程打开后,VSCode弹出的确认信息框选择“Yes”选项。图4 确认信息此时左侧Explorer栏可以看到创建好的工程结构。图5 工程结构工程中的目录作用介绍如下:.vscode: vscode 配置文件,包含工程设置和运行的配置文件build:编译产物所在目录CMake:CMake配置文件log:制作镜像以及实例运行日志package:rpm打包配置文件src: 工程开发代码主目录test: 测试代码及测试数据thirdparty:工程依赖的第三方库tools: 工程构建依赖工具manage.py: 工程套件命令行入口该工程包含已经配置好的CMakeList文件,开发者在src目录下进行AI应用开发后,不修改或少量修改CMakeList即可直接编译运行,开发者也可以将该工程目录直接上传至自己的git代码仓库。如果工程中根目录中有requirements.txt文件,意味着该工程需要安装第三方python依赖,点击菜单栏中的“Terminal”->“New Terminal”新建一个终端窗口,输入以下命令即可安装。这个路径中的文件在实例重启之后会恢复,建议每次重启之后都重新执行下面的命令。pip install -r requirements.txt --target /home/ma-user/.local/lib/python3.7/site-packages --upgrade --force-reinstall
-
使用PPO算法玩超级马里奥兄弟使用A2C算法控制登月器着陆使用DQN算法玩2048游戏使用强化学习AlphaZero算法训练中国象棋AI使用A3C算法玩乒乓球游戏使用DPPO算法控制倒立摆使用SAC算法训练连续CartPole使用DDPG算法训练连续MountainCarBabyGAN:根据父母照片生成孩子照片基于计算机视觉的钢筋条数检测以上十个案例均可点击跳转,一键部署NoteBooke体验!学AI,上AI Gallery!欢迎大家前往体验各种丰富的AI案例!
-
互动贴及直播回顾:【视频回顾】GDE直播公开课·第七期,低门槛AI开发模式:ModelFoundryQ:ModelFoundry能否支持多人协作开发?A:ModelFoundry提供无码化、导航式模型开发模式,用户无需编码开发 Q:ModelFoundry和NAIE有哪些区别呢?A:NAIE将模型开发的低门槛通过在jupyterlab通过学件的点击选择降低模型构建门槛,ModelFoudnry则完全屏蔽算法细节给用户提供无码化模型训练体验; 在整个AI应用编排方式上,ModelFoundy借助GDE 能力构建数据,AI,UI和业务流程等全流程应用构建,NAIE这块使用资AIOps重点构建大屏和数据集成 Q:支持哪些框架A:pyspark, tensorflow, pytorch, sklearn Q:可以使用notebook吗?A:可以使用notebook开发model foundry模板 Q:AI开发在电信行业交付过程中哪些流程上可以应用?A:目前我们从站点规划,实施,运维和用户体验分析都有相关应用 Q:有几种开发模式?A:目前我们平台支持的模型开发方式分为两种:一种是model foundry这种无码化模型开发;还有一种是通过jupyterlab procode方式编码方式进行模型开发 Q:能否使用ModelFoundry开发RPA机器人?A:暂不支持 Q:AI建模效率与哪些因素有关系?A:数据集的选取(图像标注,特征功能等)、算法的参数调优,模型的评估。Q:ModelFoundry都有哪些模板?A:KPI异常检测,结构化数据分类和预测,目标分割,物体检测等。 Q:ModelFoundry能和Manas共同使用吗?A:ModelFoundry是依赖于Manas平台能力构建的无码自动化建模能力 Q:搭建AI平台需要多少资源?A:不包括中间件服务和计算节点的话,需要2台12U24G节点。 Q:低门槛AI开发模式ModelFoundry需要什么基础吗??A:了解机器学习过程和相关概念;熟悉业务场景和数据。 Q:可以引入第三方组件吗?A:可以的。Q:modelfoundry与modelart有什么不同?A:Model Foundry基于GTS的在运营商领域的多年交付积累,逐步扩展到各行各业,这两种都是将经验转化为资产的方式,Model Foundry整体属于GDE低代码开发体系中的一环,可以和数据、UI、流程编排等进行协同,可以向用户提供除了AI以外的更多的开发能力,解决更为复杂的业务问题。Q:是否可以直接使用华为modelarts中训练的模型?A:暂不支持Q:数据可以存储到OBS吗?A:可以,支持hdfs,minio,obsQ:ModelFoundry是否提供人脸识别服务能力?A:预置了图像分割的模板,可以使用图像分割的能力进行人脸识别。Q:结构化指的数据,就是传统的表格数据,区别于图片、视频这种非结构化数据,那举例的燕尾花为什么是结构化分类呢?A:结构化数据是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范。鸢尾花数据集的特征数为四个,标签的种类个数固定(3个类别),每组特征都对应一个种类,属于分类问题。Q:数据可以通过数据集本地上传,也可以通过DataCube集成处理保存到HDFS供manas使用--如黑烟检测的模型部署到实际场景,这时候采集的数据是通过摄像头采集吗? 采集后如何入库?对采集图像有什么要求?A:现场的图像使用摄像头采集,压缩成zip包后上传Manas样本库,使用样本库标注功能对图像进行标注并发布训练数据集。采集的图像尽可能覆盖所有场景,分辨率没有太高要求。
-
【报名福利】报名后即可参与抽奖,超5%中奖概率,抽华为畅享10 Plus手机、华为路由器、华为nova mini蓝牙音箱、华为云AI定制衣服、定制保温杯!【活动亮点】0门槛入门Python,华为名师从环境搭建开始带您走进Python的世界,了解Python独特的语法,同时结合实践操作,增强您的编程能力。>>> 点击报名链接<<<【活动流程】①报名加入学习群,②在线课程,③实践案例直播课,④结业颁奖 ①【加入学习群】扫码添加小助手,加入学习群↓↓↓↓↓②【在线课程】总分500分开发者完成以下三门课程的进度和测试,可获得对应的分数。· 华为名师揭秘编程界“网红”Python:· Python入门篇:· Python进阶篇: ③【实践案例直播课】总分100分老师保姆式教学,完成实践案例可获得对应的分数:④【结业颁奖】获得满分600分的开发者,活动结束后将获得由华为云AI颁发的【DevRun AI应用开发-Python实战营结业证书】【邀请报名奖励】>>> 点击报名链接<<<>>> 点击报名链接<<<【活动说明】①请务必使用个人实名账号参与活动(IAM、企业账号等账号参与无效)。②为保证活动的公平公正,华为云有权对恶意刷活动资源(“恶意”是指为获取资源而异常注册账号等**活动公平性的行为,黑产用户不计入活动统计),利用资源从事违法违规行为的用户收回奖励资格,本次活动一个实名认证账号只能对应一个收件人(只能参加一次),如同一账号填写多个不同收件人,不予发放奖励,且每个账号只记录最早的一次回帖,多发无效。排名奖项若有并列,按照完成时间先后顺序排列。③本活动规则由华为云在法律规定范围内进行解释。华为云保留不时更新、修改或删除本活动规则的权利。上述更新、修改或删除于公布时即时生效,用户应当主动查阅本活动规则的最新内容。④所有参加本活动的用户,均视为认可并同意遵守《华为云用户协议》,包括以援引方式纳入《华为云用户协议》的《可接受的使用政策》、《法律声明》、《隐私政策声明》、相关服务等级协议(华为ModelArts服务声明、SLA等),以及华为云服务网站规定的其他协议和政策(统称为“云服务协议”)的约束。如果您不同意本活动规则和云服务协议的条款,请勿参加本活动。
-
数据库与AI结合起来会迸发出什么样的火花?不同的数据库厂商、开源社区、高校师生们的理解也都不尽相同。虽然在精确的概念上难以形成统一的标准,但是在总体的演进思路上却是一致的。对于openGauss来说,自从在社区开源第一个版本开始,openGauss便不断地在该领域演进并贡献代码,对于此次开源的openGauss 3.0.0 版本来说也不例外。在3.0.0版本中,openGauss的AI领域将在多个方向演进:1. 整合现有AI4DB功能,开源openGauss数据库自治平台;2. 重构现有AI4DB能力,实现插件化、支持服务式的运行模式;3. 支持Prometheus 生态;4. 新增慢SQL根因分析、时序预测等新特性,优化现有的AI能力;5. DB4AI功能支持更多算法。DB4AI原生引擎进一步升级在openGauss 3.0.0中,DB4AI原生引擎支持更多机器学习算法,例如支持SVM的非线性核函数,支持XGBoost等等。同时,openGauss还提供了Explain接口,可以观察到模型的信息。AI4DB支持服务化、插件化原有的openGauss AI4DB 能力是离线工具形态,不能在后台对数据库进行完整的监控,也不能定期地对数据库进行问题发现。最新版本,openGauss实现了后台监控服务,并在后台定期地检查数据库系统的状态,从而形成了自治数据库平台DBMind。通过离线计算的形式,将诊断结果保存,用户可以通过Grafana等软件进行可视化,从而第一时间发现问题并获知问题的根因。由于需要在后台定期监控openGauss数据库系统的运行状态,因此,需要对接监控平台以便采集数据库监控指标并进行离线计算。故而,在3.0.0版本中,openGauss实现了两款exporter用于与Prometheus平台进行对接,其架构形态为:其中,openGauss-exporter 用于获取数据库系统的监控指标(metric),reprocessing-exporter用于对存储在Prometheus中的数据进行二次加工。上述两个exporter的数据,可以通过Prometheus定期采集获取。DBMind系统定期从Prometheus中获取时序数据,并在DBMind部署机上进行并行计算。待计算完成后,将计算结果存储在元数据库(meta-database)中。之后,用户可以从元数据库中获取诊断结果,更进一步地,可以通过配置Grafana等进行可视化。如上图所示,是一种基于元数据库中的数据,采用Grafana进行可视化的示例。与此同时,openGauss还全面整合了现有的AI能力,并重新设计了一种插件化的模式。例如,用户希望调用参数调优功能,基于强化学习来调试数据库的参数,可以通过下述命令来实现:gs_dbmind component xtuner tune …通过上述gs_dbmind 命令,可以调用所有的AI功能,通过component 子命令,可以调用具体的AI功能。用户可以通过下述命令来查看帮助详情:gs_dbmind component --help通过上述设计,openGauss社区开发者如果希望贡献某种数据库AI功能,则只需要保证接口能被gs_dbmind获取到即可。同时,开发的插件还可以调用DBMind提供的全部API,例如从Prometheus 中获取数据的dai (data access interface)接口,向元数据库(meta database)中插入数据的 dao (database access object)接口等。AI4DB 现有AI能力全面提升在此次发布的3.0.0版本中,openGauss 对现有的索引推荐、时序预测等功能也进行了全面升级。补充了以往版本中的疏漏场景。同时,提供慢SQL根因分析与推荐功能,帮助DBA迅速识别出慢SQL,并依据监控到的数据库运行指标,通过AI特征库识别算法创新地给出慢SQL产生的原因和置信度,同时还给出优化建议。为下一步开发全面的数据库AI自治平台打下基础如上文所述,在openGauss 3.0.0版本中,创新性地完成了对历史AI能力的整合,丢弃历史研发过程中遗留下的包袱,轻装上阵,创新性地实现了可服务化、可离线式、插件式、自由组装的DBMind平台,并跟随数据库安装包一同发布。对于诊断后的结果,用户可以自行采用Grafana等工具进行自定义地可视化(当然,我们也会提供Grafana示例)。这为我们未来更进一步地将DBMind平台升级打下基础,预计本年度openGauss会将更多AI功能丰富到该平台中,同时将该平台从现有代码仓库中独立出来,并提供原生的Web前后端展示平台,同时支持自修复功能,让用户真正体会到一键式、开箱即用的数据库自动驾驶。
-
作者:想飞就飞来源:知乎原文链接:https://zhuanlan.zhihu.com/p/504100961摘要数据是机器学习的生命线,对数据的有效管理是AI中重要的工程实践。本文将介绍AI设计模式中的一种数据表示模式 - 特征哈希(Feature Hashed)模式,并探讨如何使用MindSpore实践该模式。模式定义特征哈希是AI设计模式中的一种数据表示模式,能够有效解决分类数据不完整、高基数(特征类别不均)、以及冷启动问题(推理时无法处理新出现的类别)。结合MindSpore提供的数据处理接口,开发者可以很容易的应用该实践。问题机器学习在数据处理时,通常使用独热编码(one-hot encoding)的方式将分类数据转换为数值数据。独热编码是用N个状态对N个分类数据编码,这样在任意时刻,只有一位是有效的。比如,假设我们有6个邮政编码[1,2,3,4,5,6],然后通过独热编码对这些分类数据进行编码:import numpy as np import mindspore.dataset.transforms.c_transforms as c_transforms import mindspore.dataset as ds code = [1,2,3,4,5,6] data = np.array(code) # 将结果列表转为Numpy的数组 dataset = ds.NumpySlicesDataset(data, column_names=["clz"], shuffle=False) # 基于MindSpore的Dataset接口把Numpy数组转为Dataset对象 onehot_op = c_transforms.OneHot(num_classes=7) # 定义操作,这里num_class要大于code中最大数的值 dataset = dataset.map(operations=onehot_op, input_columns=["clz"]) # 应用独热编码 for item in dataset: print(item)执行后可以看到编码的结果:[Tensor(shape=[7], dtype=Int32, value= [0, 1, 0, 0, 0, 0, 0])] [Tensor(shape=[7], dtype=Int32, value= [0, 0, 1, 0, 0, 0, 0])] [Tensor(shape=[7], dtype=Int32, value= [0, 0, 0, 1, 0, 0, 0])] [Tensor(shape=[7], dtype=Int32, value= [0, 0, 0, 0, 1, 0, 0])] [Tensor(shape=[7], dtype=Int32, value= [0, 0, 0, 0, 0, 1, 0])] [Tensor(shape=[7], dtype=Int32, value= [0, 0, 0, 0, 0, 0, 1])]这样可以确保分类数据的输入的唯一性。处理分类输入需要提前知道所有的类别,语言、日期等相对确定的数据很容易处理,而对于比较难预测的数据会存在一些问题:1. 数据不完整训练数据中没有包含所有的特征类别。如果训练数据不完整,可能无法提前获得所有可能的单词,导致编码以后的数据也不完整。比如,针对医疗方面的一些模型,训练数据的词汇表中无法包含所有的医院和医生信息。2. 高基数(某个分类特征的类别特别多)单个分类特征的不同值很多,可能需要长度数百万的特征向量, 如IP地址、家庭住址等,导致模型也需要很大空间,无法在小设备上部署。3. 冷启动问题(推理时无法处理新出现的类别)对于新的分类数据,生产环境中的模型无法正确的预测,会出现错误,需要专门的服务来处理这种冷启动的问题。解决方案以参考图书中预测航班的准点率模型场景为例,美国约有350个机场,机场间的差别会比较大,有些机场航班很多,有些机场航班很少,同时,每年会有新的机场出现。这个场景同时存在了独热编码时的数据不完整、高基数和冷启动问题。通过特征哈希模式来解决分类数据在独热编码存在的问题。具体的操作如下:将机场的分类数据,把输入转化为唯一的字符串,如把机场名称数据改为缩写并保证数据不重复;对字符串使用稳定可移植(训练和推理场景都可用)的哈希算法进行哈希;对哈希结果取余数。通过farmhash算法,对于这些机场进行哈希,然后分别放入10,1000个桶中,结果如下:>> airports = ["DTW", "LBB", "SNA", "MSO", "ANC"] >>> list(map(lambda x: farmhash.hash64withseed(x, 10) % 10, airports)) [9, 9, 4, 0, 1] >>> list(map(lambda x: farmhash.hash64withseed(x, 1000) % 1000, airports)) [416, 532, 193, 538, 971]机场缩写hash 10hash 1000DTW9416LBB9532SNA4193MSO0538ANC1971特征哈希如何解决分类数据的问题:针对数据不完整问题:即使有些机场数据不在训练数据集中,但它通过特征值哈希后在桶的大小范围内,不用担心数据不完整的情况。针对高基数问题:通过哈希的方式可以将数据的规模降低,减少了系统内存占用和模型大小,即便有百万的数据规模,哈希后也只会落入到有限的桶中。针对冷启动问题:如果新的分类数据添加到系统中,它在哈希后落入和其它机场相同的桶,所以不用担心在生产环境中预测时会出错的情况。之后通过训练更新的模型获得更好的预测。比如,对于350个机场,哈希桶设置为70,大约每个桶有5个机场,每个桶都有数据,生产环境预测就不会落空,只是预测的数据可能不会特别精确,需要后续训练来优化模型。案例这里沿用了上面提到的预测机场航班准点率的例子,首先对机场数据应用模式,而后通过MindSpore的独热编码接口,完成数据的编码准备。其中依赖哈希算法库需要通过`pip install pyfarmhash`安装。import farmhash import numpy as np import mindspore.dataset.transforms.c_transforms as c_transforms import mindspore.dataset as ds airports = ["DTW", "LBB", "SNA", "MSO", "ANC", "ABC", "CDE", "FGH"] # 将机场名称缩写 hashed_data = list(map(lambda x: farmhash.hash64withseed(x, 1000) % 4, airports)) # 对字符串应用特征哈希模式 data = np.array(hashed_data) # 将结果列表转为Numpy的数组 dataset = ds.NumpySlicesDataset(data, column_names=["airport_name"], shuffle=False) # 基于MindSpore的Dataset接口把Numpy数组转为Dataset对象 onehot_op = c_transforms.OneHot(num_classes=4) # 定义独热编码操作,这里num_class的数量和桶的数量保持一致 dataset = dataset.map(operations=onehot_op, input_columns=["airport_name"]) # 对机场信息数据应用编码 for item in dataset: print(item)编码的输出结果如下:[Tensor(shape=[4], dtype=Int32, value= [1, 0, 0, 0])] [Tensor(shape=[4], dtype=Int32, value= [1, 0, 0, 0])] [Tensor(shape=[4], dtype=Int32, value= [0, 1, 0, 0])] [Tensor(shape=[4], dtype=Int32, value= [0, 0, 1, 0])] [Tensor(shape=[4], dtype=Int32, value= [0, 0, 0, 1])] [Tensor(shape=[4], dtype=Int32, value= [0, 0, 0, 1])] [Tensor(shape=[4], dtype=Int32, value= [0, 0, 1, 0])] [Tensor(shape=[4], dtype=Int32, value= [1, 0, 0, 0])]总结特征哈希模式在使用时有它适用的场景,它的主要问题是损失了模型精度。特征哈希模式不适合分类数据明确,词汇表大小相对较小(1000量级),并且不存在冷启动的场景。取模是有损操作,特征哈希模式将不同的分类放到了同一个桶中,损失了数据的准确性。在分类的数据特别不平衡时,会导致推理的误差比较大。比如榆林机场的流量比较小,西安机场的流量比它大两个量级,如果它们被放到同一个桶中,当成一种编码处理。模型的结果将更偏向于西安的场景,导致对于起飞等待时间等预测出现偏差。有两种方式可以缓解模式造成的模型精度损失,可以在实践时考虑应用:添加聚合特征:如果分类变量的分布偏斜,或者桶的数量少导致冲突多,可以通过添加聚合特征作为模型的输入来缓解。比如,对于每个机场,都可以在训练数据集中找到准时航班的概率,并将其作为一个特征添加到模型中。避免在散列机场代码时丢失与个别机场相关的信息。在某些情况下,可以完全避免将机场名称作为一个特征,因为有航班准点的相对频率数据可能就够了。把桶的数量作为超参来调整,以达到精度的平衡。下一篇我们将继续介绍数据表示的嵌入模式(Embeddings)。
-
据HaStuton Partners的一份报告显示,2021年,数字健康领域的投资激增了79%。心理健康和保健、医学成像和基于人工智能的诊断软件、临床试验技术被证明对投资者最具吸引力。该报告强调了世界卫生保健系统的不足和机遇,以及风险和成长资本如何涌入数字医疗公司,并在2021年筹集了总计572亿美元的资金,比2020年增加了79%。Hampleton Partners 董事 David Bell 表示:“尽管新的投资主要集中在远程医疗上,但风险投资正日益多样化其健康技术目标,基于人工智能的临床决策软件和数字疗法是关键领域”。“我们还发现,欧洲是一个投资热点,其融资轮次显著超过全球平均水平,从2020年到2021年,总投资额增长了131%,至67亿美元。欧洲数字医疗基金目前约占全球投资的12%,高于2020年的9%。”在并购方面,在整个医疗科技行业,2021年有601起收购,较 2020 年增长 13%,较 2019 年增长 40%。2021 年有 10 笔医疗科技交易成交额超过10 亿美元。世界各地都感受到了疫情大流行对个人心理健康的影响。在此期间,2021 年对心理健康相关技术的投资达到 55 亿美元,自 2020 年以来增长了 139%。欧洲的说明性交易包括总部位于英国的Ieso在2021年11月从包括Morningside Technology Ventures、Molten Ventures和索尼创新基金(Sony Innovation Fund)在内的风投和CVC获得的5300万美元B轮融资。Ieso提供在线认知行为疗法(CBT)。2021 年 3 月,总部位于美国的按需心理健康治疗提供商 Ginger 筹集了1亿美元的 E 轮融资,由 Blackstone领投,随后与冥想应用 Headspace 合并。人工智能(AI)和机器学习(ML)的进步在生产力和诊断方面有着越来越广泛的应用,包括人员生产力和成像解释效率。来自 VC 和 CVC 的投资从 2017 年的不到 3 亿美元增加到 2021 年的 7 亿美元,翻了一番还多。PathAI是一家人工智能技术工具提供商,通过生物标记分析和药物开发快速准确地诊断患者,在 2016 年 12 月的种子轮融资和 2021 年 5 月的最新 C 轮融资之间筹集了 2.55 亿美元。这场大流行严重破坏了传统的临床试验模式,进而阻碍了药物开发。这促进了临床试验过程中的创新需求,投资者通过瞄准改善招募和参与的技术做出了回应。这个细分行业的投资增长了53%,从2020的18亿美元上升到2021的27亿美元。示例包括总部位于加利福尼亚的 Medable,该公司提供了一个旨在简化临床试验过程的平台,在2021筹集了两次资金:7800 万美元的 C 轮融资和 3.04 亿美元的 D 轮融资,自 2015 年以来总投资达到 5.07 亿美元。与此同时,旨在提高临床试验参与者注册率的爱尔兰平台提供商Teckro在2021年11月的D轮融资中筹集了2500万美元。该公司已筹集了总计 6600 万美元的资金,投资方来自 Northpond Ventures 和 Sands Capital。Hampleton Partners预计,在临床方面,专注于疾病跟踪和测试、生物制药研究和医疗用品的公司正在增加其基于技术的准备,以利用互操作性、虚拟健康、基于云的平台、人工智能和其他新兴技术。在患者方面,越来越多的健康科技公司专注于远程医疗、健身、保健、心理健康和个性化的家庭健康监测。虽然远程医疗可能曾经是一个小众市场,但新冠肺炎已经使其成为主流。David Bell 说:“这种背景导致了越来越多的融资和并购整合,特别是因为预计到2025年,仅企业健康技术市场就将达到1.3万亿美元,而且还没有放缓的迹象。我们预计整个行业的交易量将在 2022 年保持不变,垂直软件、精准医疗和在线健康的估值指标将保持当前水平,因为它们在医疗保健生产力和诊断方面的重要性日益增加。”他表示,鉴于 2021 年欧洲医疗技术资金的激增,2022 年的资金同比增长可能低于 2021 年,但他预计交易量将会增加。2021年披露的交易价值排名前三的交易是:300 亿美元:Data to Decision 收购了 Mediqon,后者是一家软件提供商,用于管理和分析数据以做出明智的医疗保健行业决策。283 亿美元:甲骨文收购了医疗实践管理软件和 SaaS 提供商 Cerner197 亿美元:微软收购了 Nuance Communications,这是一家支持人工智能的桌面和移动交互式语音响应和自动化SaaS的供应商
-
入春之后,绝大多数植物都开始换发生机,人也变得精神了许多。要说春天有什么好吃的,那必然是野菜了。春天的野菜十分鲜美,吃到肚子里可谓是好处多多。可是野菜那么多,我怎么分得清呢?下面我们就一起通过华为ModelArts AI 开发平台,开发一个图像分类的模型,来告诉我们这些野菜叫什么。在开始我们的实验之前,我们需要先了解下,什么是图像分类。图像分类是计算机视觉中最基础的任务,图像分类任务是根据图像的语义信息,判断图像中物体的类别,比如猫狗、婴儿等等。图像分类也是图像检测、物体分割、行为分析等其他高层次视觉任务的基础。在多领域有着广泛的应用。比如我们手机中,可以对手机拍摄的图片进行分类,方便我们很快的找到自己需要的图片,再比如我们可以通过手机拍摄图片,通过分析图片的信息,可以在线购买相关的物品,甚至在目前的医学领域,图像检测也有了落地的应用。话不多说,我们一起操练起来一、准备数据集工欲善其事必先利其器,在做智能训练的时候,我们必须要有相关的数据来进行训练,好的数据集直接影响后期模型的准确度。在图像分类中,常见的开源数据集有:猫狗分类数据集、数字识别数据集、花卉识别用的数据集以及其它数据比较完整的数据集。下图展示了图像分类常见到的开源数据集当然我们也可以通过搜素引擎,找到我们所需要训练的素材,重要点就是:大图、高清、无码。二、上传OBS 存储这里我们使用华为OBS来存储我们的训练数据。OBS可以简单的理解为我们电脑的硬盘,不同的是,OBS可以在MoerlArts平台上直接被调用。这样大大方便了我们做训练。这里需要提个概念,“桶”这个是OBS 里的术语,可以理解为电脑上的C\D盘。至少我是这么理解的。然后我们可以在里面创建不同的文件夹,来放置我们实验用到的数据集。这里我通过OBS 客户端来上传我们的数据集,相对比较方便进入刚刚进入的桶,然后按下图操作上传我们准备好的数据集。三、数据标注刚刚我们已经上传到OBS 中,现在我们对上传的数据集进行标注,简单的理解就是我们告诉系统,这个图片里的事物都是些什么,让他认识并记住,方便我们以后对它进行训练1、进入AI 平台2、新建项目并引用数据集数据集输入位置,可点击右侧的小文件夹图标进行快速选择参数完成后,点击创建项目,完成项目创建3、数据标注项目创建完成后,我们进入下图可以看到,我们准备的训练图片已经全部显示出来了,下面我们就开始进行数据标注,选择同类型的图片,然后输入数据标签,点击确定,即可完成数据标注工作。下图是数据集标注完成图4、训练模型完成 数据集的标注,下面开始进行数据模型的训练,点击右上角开始训练,进入训练界面勾选使用免费的GPU 资源,点击下一步点击提交,开始训练模型等待模型训练完成训练中出现的异常,可以点击异常图片查看详情我这边是由于数据集中有png 图片造成的,可以在训练完成后,在OBS 中删除对应的图片,在同步下数据集,重新进行训练即可4、训练完成在这里我们可以查看训练的准确度等参数,然后点击部署按钮,开始部署刚刚训练好的模型部署规格如下图所示等待部署完成部署完成点击上传,进行图片预测同时,也可以通过URL 接口进行调用,在通过调用手机端的摄像头,就可以愉快的识别野菜了。今天的实验就到这里,我们下期再会。温馨提示:不常吃野菜的朋友,建议不要盲目去挖,想尝鲜可以到菜市场买点回家,这样的野菜吃起来更安全一些哦。
-
机器学习常见的分类有3种:监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。常见的有回归和分类。非监督学习:在未加标签的数据中,试图找到隐藏的结构。常见的有聚类。强化学习:智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。回归回归反映的是数据属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。分类分类是找出一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。聚类聚类是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。与分类不同,聚类分析数据对象,而不考虑已知的类标号(一般训练数据中不提供类标号)。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。对象的聚类是这样形成的,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。
-
AI应用开发并调试完成后,开发者可以将AI应用服务到ModelArts AI应用管理模块,然后在ModelArts的推理平台进行应用的生产部署。发布AI应用包含了应用打包、构建镜像和发布这三个步骤。打包AI应用构建镜像发布和部署AI应用打包AI应用鼠标右键工程列表中当前工程,点击“Package”将会打包当前工程,生成该工程的rpm包。构建镜像将AI应用打好的rpm包和基础镜像打成新的应用镜像,用于部署。生产部署时,Dockerfile中配置的基础镜像需要选择runtime镜像。鼠标右键工程列表中的当前工程,点击“Build Image”,输入镜像名称、镜像版本、OBS地址。图1 构建镜像镜像构建首次执行大约耗时5~8min,执行成功后镜像将被推送到华为云SWR服务的组织中,SWR地址会打印在terminal控制台。命令执行结束后,镜像构建的日志会在下载至工程log目录下docker-build.log文件中,可通过日志查看构建过程信息。发布和部署AI应用发布AI应用鼠标右键工程列表中当前工程,点击“Public”,输入应用名称、应用版本、请求方式以及镜像地址。点击高级选项可以配置更加丰富的选项。图2 发布AI应用部署AI应用AI应用发布成功后,进入“部署上线>在线服务”模块进行部署操作,部署时选择发布的AI应用进行部署即可。控制台上提供了比开发环境的命令行更为丰富的部署选项,例如服务流量限制、服务自动停止等,用户可以根据需要进行配置,具体可参考部署为在线服务。
-
实验到这个步骤的时候,连不上弹性公网IPfailed to connect the device
-
基于NPU+AI ISP多媒体SoC开发的4K@60网络摄像机夜间超感光效果测试智能加速4Tops INT8 NN加速引擎,双核Vision Q6的DSP处理。 支持4K60的H.265/H.264编码,支持10路1080p30的H.265/H.264解码。 支持4路4Mp30机内实时硬化拼接,支持2路4K p30机内实时硬化拼接。高速接口支持USB3.0和PCIe2.0高速接口。智能视频分析神经网络加速引擎,高达 4Tops INT8 支持INT4/FP16 支持完整的API和工具链,易于开发双核 Vision Q6 DSP 32K I-Cache /32K D-Cache /32K IRAM/320K DRAM,内置智能计算加速引擎,双目深度加速单元,以及矩阵计算加速单元 有兴趣的圈友可以联系索取测试视频;(Wechat:Todd_Wong2010)
Todd_Wong2010
发表于2022-04-26 13:45:28
2022-04-26 13:45:28
最后回复
Todd_Wong2010
2022-04-26 13:45:28
341 0
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签