• [专家秘籍] 专家秘籍汇总贴来喽,欢迎大家交流探讨(持续更新中)
    序号帖子标题链接1玩转PB级分布式数仓GaussDB(DWS)性能调优黑科技https://bbs.huaweicloud.com/forum/thread-181123-1-1.html2玩转PB级数仓深度调优之依“计”行事3GaussDB(DWS)性能调优https://bbs.huaweicloud.com/forum/thread-180949-1-1.html4GaussDB(DWS)安全与权限设计https://bbs.huaweicloud.com/forum/thread-180950-1-1.html5GaussDB(DWS) 补丁、升级及扩容流程https://bbs.huaweicloud.com/forum/thread-180951-1-1.html6GaussDB(DWS) 备份与恢复https://bbs.huaweicloud.com/forum/thread-180952-1-1.html7GaussDB(DWS) 日常巡检https://bbs.huaweicloud.com/forum/thread-180953-1-1.html8GaussDB(DWS) 常见问题三板斧https://bbs.huaweicloud.com/forum/thread-180954-1-1.html9【云小课】不可不知的调优技巧-GaussDB(DWS)表结构优化https://bbs.huaweicloud.com/forum/thread-167614-1-1.html
  • [技术干货] 开源数据库兴起,你需要了解的三件事【转载】
    技术专家每天都必须要平衡生产力与成本以及复杂性,随着开源数据库的日益普及,负责数据库平台的技术人员正面临着更大的挑战。在最新的《SolarWinds调查报告》中,近三分之一的受访技术专家表示,他们在企业机构中需要负责超过300个数据库。大多数受访者表示,其企业机构有一半以上的数据库对业务至关重要。开源模式是中国数据库市场当下的主流趋势之一。根据艾瑞咨询发布的《2021年中国数据库行业研究报告》,开源模式不仅通过公开分享源代码来使研发人员避免重复开发基础程序,从而提高数据库产品的开发“效率”,而且对产品技术创新也很有帮助。开源社区能够最大程度地汇集全球资源,为开发者提供一个交流和讨论空间,从而加快创新思想的诞生。根据CAICT(中国信息通信研究院)的《开源生态白皮书》,中国的开源项目在2021年呈现爆发式增长,中国企业积极投资,在操作系统、数据库、中间件等领域出现了许多高质量的开源项目。随着开源技术被认可和接受程度的提高,2020年中国有88.2%的企业采用了各种形式的开源技术。虽然商业平台仍占据主导地位,尤其是对于企业要害应用,但开源数据库正在增加。为了避免给内部系统带来风险,以前很少有企业IT团队愿意使用开源数据平台或初创企业的数据库管理系统。时过境迁,我们现在正在进入一个数据平台混搭的新时代,同时也需要牢记一些重要的原则,如务必在调查所有选择方案之后,再决定是否采用一个开源平台。没有人能够抵挡免费的诱惑,你也不例外开源数据库有很多优点,其中最突出的无疑是免费——没有人能抵挡免费或低价的诱惑。由于没有商业软件附带的许可证费用(通常这笔费用十分昂贵),因此IT预算不受合同款项的限制。而节省了成本的IT部门具有巨大的灵活性,可以进行尝试并且能够根据市场需求迅速采取行动。由于开源社区不根据所支付的费用来授予许可证,因此小型企业也可以像跨国企业一样获得创新功能。而且初创企业和其他小型企业相比大型企业更有优势——在重新解释快速决策基于的因素并调整这些因素的优先顺序时,所涉及的管理层级较少,因此这些企业通常能够更快做出决策。是否应该采用开源数据库取决于性价比。一家企业可能会选择一个高效率、能够随时提供支持的商业工具来为他们每年节省数千美元。如果工具有效,那么即便是六位数的许可费可能也不是天价,而且当这个工具不起作用时,还可以根据合同直接追讨赔偿。另外,采用开源数据库的你并不孤单。根据《SolarWinds调查报告》,43%的技术专家表示他们目前正在使用MySQL或MariaDB。此外,18%的人表示他们计划在未来三年内采用MySQL、MariaDB或其他开源数据库平台。同时,企业正在为基本的数据库应用寻找开源数据库或者至少在权衡开源数据库的利弊。他们拥有现成的专业数据库管理技术,许多企业最终决定等到出现更好的工具后,才在关键位置上采用开源数据库平台。调查你的选择方案在使用开源数据库之前,数据库专家应该研究此类平台为什么以及何时能给他们的企业机构带来最大的效益。在最初研究是否使用开源数据库时,我们往往只关注平台的性能和工作负载能力,但这还不够。我们的确很难挤出时间来研究这些问题。《SolarWinds调查报告》发现数据库专业人员需要负责300多个数据库的各种平台。仅仅是保持这么多数据库正常运行、解决各种问题和 “救火”,就已经需要他们加班加点。事实上,这份报告还发现维护工作占据了数据库专业人员一天中的大部分时间:三分之一的受访技术专业人员表示,他们一天中的大部分时间都在维护。这无疑使他们更加没有时间来研究开源数据库平台或进行任何可能提高生产力和节约成本的分析。形成监控思维技术专家可以使用合适的自动化和监控工具来节省维护时间。数据库监控工具可以在问题变得严重之前预见问题,还可以实时响应各种警报;自动化系统可以让他们腾出时间来专注于主动性数据库性能管理。监控工具在后台运行,充分发挥同时管理大量数据库的能力,而数据库专业人员则可以提高自身的技能、进行创新和研究他们的开源选择。根据笔者数十年的经验,有监控思维的企业所取得的成功远大于没有监控思维的企业。一流的企业在得到一个新的数据库平台时,也一定会采取监控措施,确保该平台不会在他们毫无察觉的情况下发生故障,然后才会考虑将其用于生产。这些企业会防止平台“胡作非为”、占用特定服务器上的全部处理周期,这大大有助于技术专家继续添加更多的功能。开源数据库已成为一种趋势。但在部署一个数据库之前,请务必详细调查你的选择方案(请记住:错误的选择会带来严重的后果),然后在部署新的数据库平台时务必部署自动化和监控系统。在整个过程中,应基于明确的业务目标制定部署规则,同时把政治因素排除在外。 原文链接:https://blog.csdn.net/FL63Zv9Zou86950w/article/details/123095718
  • [华为伙伴暨开发者大会] (获奖公布)【技术前瞻】专家坐堂,参与交流互动抽取奖励!
    各位开发者:此次活动已开奖抽奖过程可查看本帖附件奖品将在7月31日邮寄如遇其他情况延迟发货将在本帖进行说明没有填写奖品邮寄信息表的用户请抓紧填写兑奖截止日期:2022年7月20日23:59逾期视为弃奖,不补发【华为伙伴暨开发者大会社区活动获奖信息收集表】技术前瞻·专家坐堂-获奖名单公布奖品:文件收纳包1个kirztoshs君临天下夜未央乌龟哥哥yd_291309265湬黍yd_263991330jflmaoyd_222318332dayday大会活动已全部结束,活动正在评奖中,预计 7月15日前 公布结果直播报名地址(报名并观看直播即可解锁LV1)>>点击报名观看<<更多解锁闯关规则,请>>点击了解<<活动时间05月23日—06月30日互动方式直播后您可以在本帖留言,与专家互动交流,我们会在全部活动结束后对参与互动的用户进行抽奖。 活动规则和奖励说明1.本次活动结束后,将由华为云工作人员将符合抽奖条件的用户名单导入至巨公摇号平台(https://www.jugong.wang/random-portal/)内,抽取各奖项,并截屏公示抽奖过程。如您不同意此抽奖规则,请勿参加本次活动。2.我们将抽取10位幸运用户,每人奖励文件收纳包1个。直播列表日期主题 简介 链接5/259:00华为云IoT创新应用开发大赛总决赛本次将为大家直播华为云IoT创新应用开发大赛总决赛现场。20支优秀团队现场竞演,参赛作品覆盖智联生活、智能制造、智慧城市、智慧农业、智慧医疗等场景,带你全方位了解华为云IoT全场景智慧物联!点击观看5/2717:00鲲鹏应用使能套件BoostKit,使能极致性能为您讲解助力伙伴打造具有竞争力的金融、政府等国计民生行业解决方案,如基于BoostKit机密计算开展金融风控模式创新、打造基于BoostKit全局缓存的极致性价比云存储系统等。点击观看5/3117:00通过Rust语言计算加速技术突破图片识别性能瓶颈为您讲解在Rust项目中如何利用计算加速技术帮助开发者解决图片识别等场景下的性能瓶颈问题。点击观看6/117:00解读HarmonyOS 应用与服务生态让您对HarmonyOS基础理念和发展方向有深刻理解,共建共享万物互联的新赛道。点击观看6/217:00对话专家,HMS Core 6创新能力解读为您讲解HMS Core 6在媒体、图形、连接与通信领域的创新能力与技术,如何实现实时环境光照跟踪,如何提升音视频智能化创作体验,弱网环境下如何为用户带来流畅上网体验。点击观看6/617:00openLooKeng,一款面向海量、跨DC的大数据分析利器使用openLooKeng,助力开发者提高跨源秒级查询,解决查询时间长的问题,实现跨域融合分析能力,解决数据零搬移联合查询速度提升。点击观看6/717:00微服务向Serverless演进与场景讲解为您讲解面向电商应用的Serverless托管方案,实现应用的极简上云。助力企业聚焦业务,降低成本。点击观看6/817:00设施云解决方案,帮您解决园区设施管理痛点为您讲解智慧园区三大场景化解决方案之一设施管理的能力及如何解决园区设施管理系统孤立、智控不足等痛点。点击观看6/917:00AI推理应用框架ModelBox,帮助您的算法快速产品化为您讲解AI应用开发框架ModelBox以及ModelBox如何解决代码复用率低,性能调试复杂,硬件适配繁琐等痛点,并演示多场景下的开发过程。点击观看6/1017:00昇腾异构计算架构CANN,助力释放硬件澎湃算力华为推出昇腾AI异构计算架构CANN,将助力解决人工智能技术面临的诸多诉求,充分释放昇腾AI处理器澎湃算力,打造昇腾AI极致性能体验,突破AI产业平台期。点击观看6/1317:00MindSpore Quantum实战,用量子计算解决组合优化问题为您讲解开源量子计算框架MindSpore Quantum主要功能、应用场景和技术优势,并通过实例讲解用量子计算技术解决组合优化问题。点击观看6/1417:00基于鲲鹏DevKit便捷开发高性能应用,助力开发效率提升15%为您解读DevKit 2.0的最新策略,以及如何助力开发者便捷、高效的开发出鲲鹏架构亲和的高性能软件,落地行业应用、繁荣鲲鹏生态。点击观看 注意事项1、为保证您顺利领取活动奖品,请您提前填写奖品收货信息【点击此处填写 】,如您没有填写,视为放弃奖励。2、活动获奖信息填写时间截止至大会结束,如未填写视为弃奖。3、本次活动幸运奖将采用巨公摇号平台(https://www.jugong.wang/random-portal/)进行抽取,话题质量相关奖项将由华为云社区工作人员进行评选,如您对评奖方式有异议,请勿参加本次活动。本活动最终解释权归华为云所有。4、如出现活动奖品出现没有库存的情况,华为云工作人员将会替换等价值的奖品,获奖者不同意此规则视为放弃奖品。5、其他事宜请参考【华为云社区常规活动规则】 温馨提示 请您认真填写收货地址信息【点击此处填写 】,在“华为伙伴暨开发者大会社区活动”系列活动中完成一次填写即可。我们最终将会按照您最后一次填写的信息发放奖励。请务必使用个人账号参与活动(IAM、企业账号等账号参与无效)。所有获得华为电子产品奖项的获奖用户,请于获奖后3日内完成实名认证,否则视为放弃奖励。本次活动如一个实名认证对应多个账号,只有一个账号可领取奖励。本次活动一个实名认证账号只能对应一个收件人,如同一账号填写多个不同收件人或不同账号填写同一收件人,均不予发放奖励。
  • [技术干货] 研究发现AI在脑外科培训中的辅导作用胜过专家教员
    一个名为“虚拟手术助理(Virtual Operative Assistant,简称VOA)”的AI导师使用机器学习算法教授安全和高效的手术技术并提供个性化反馈。COVID-19大流行病为医疗培训带来了挑战和机遇。远程学习技术在一些领域已经变得越来越重要。一项新研究发现,在远程环境中,人工智能(AI)辅导系统的表现可以超过人类专家导师。蒙特利尔神经学研究所-医院的神经外科模拟和人工智能学习中心招募了70名医学生以在神经外科模拟器上进行虚拟脑瘤切除手术。学生们被随机分配接受AI导师或远程专家导师的指导和反馈,第三组对照组则不接受任何指导。一个名为“虚拟手术助理(Virtual Operative Assistant,简称VOA)”的AI导师使用机器学习算法教授安全和高效的手术技术并提供个性化反馈,而一个深度学习的智能持续专业知识监测系统(ICEMS)和一个专家小组评估学生的表现。在另一组中,远程指导员观看了手术模拟的现场直播并根据学生的表现提供反馈。研究人员发现,接受VOA指导和反馈的学生跟接受远程教师指导和反馈的学生相比,学习手术技能的速度快2.6倍,成绩好36%。虽然研究人员预计接受VOA指导的学生会经历更大的压力和负面情绪,但他们发现两组之间没有显著差异。手术技能在脑外科手术期间和之后的病人结果中发挥着重要作用。VOA可能是提高神经外科医生表现的一种有效方式,它在改善病人的安全的同时又能减少人类教员的负担。这项研究的论文资深作者Rolando Del Maestro博士说道:“像VOA这样的AI导师可能会成为培训下一代神经外科医生的宝贵工具。VOA显著提高了专业知识,同时促进了一个良好的学习环境。正在进行的研究正在评估亲临现场的导师和AI驱动的智能辅导员如何能最有效地一起使用以提高对神经外科技能的掌握程度。”这项研究的论文第一作者Ali Fazlollahi说道:“智能辅导系统可以使用各种模拟平台从而为重复练习提供几乎无限的机会,而没有监督的可用性所带来的限制。随着智能辅导系统的持续研究、增加开发和传播,我们可以更好地应对不断发展的未来挑战。”责任编辑:张燕妮        来源: cnBeta.COM
  • [其他] 基于对比学习和对抗微调的无监督专家链接框架
    专家发现是线上学术平台Expertise Finder, Linkedin,AMiner等所提供的一个热门服务,它可以帮助政府或者相关企业寻找合适的研究专家,专业顾问以及项目候选人等。专家发现服务的质量取决于平台专家信息来源的多样性以及专家画像的完整性,但现有的学术平台往往只拥有单一来源的专家信息,例如:Google Scholar和AMiner拥有专家的学术信息,Linkedin拥有专家的专业技能和背景信息,学术新闻拥有专家的动态科研信息等。故为了提供高质量的专家发现服务,本文以AMiner为平台,致力于将多种外源专家信息链接到AMiner相应的专家实体,以获取完整的专家画像。 论文名称: CODE: Contrastive Pre-training with Adversarial Fine-tuning for Zero-shot Expert Linking 论文链接: https://www.zhuanzhi.ai/paper/87cebc5ec44371c51c8e377adb22b94b
  • [技术干货] 【深入浅出,Paas之路】华为云.云享专家曹宗南: Serverless,引领云计算下一个阶段
    2009 年,伯克利以其独特的视角发布了一篇文献,正式定义了云计算。自此,千行百业的 IT 基础设施开启上云之路。2019年,伯克利在《Cloud Programming Simplified》预言:“Serverless计算将会成为云时代默认的计算范式,并取代Serverful(传统云)计算模式。”2009-2019年,互联网技术飞速发展。在这期间,出于对计算机技术的兴趣,曹宗南大学期间选择了计算机专业,之后便开启了他的技术开发生涯。只要对开发有所了解,都知道程序员和开源是密不可分的,曹宗南亦是如此。毕业之后的一次项目中遇到数据库开发相关的瓶颈,他在经过一番查询,发现开源项目分布式数据库中间件Mycat能够完美的解决遇到的问题。他表示,Mycat在使用的过程中,后端可以挂接N个普通的MySQL数据库,数据可以按照多种规则进行分布,对外表现的却像一个MySQL实例一样来使用,业务代码不需要做大的改动。自此,曹宗南便对MySQL产生了极大的兴趣,逐渐的也从使用者到开源的贡献者。陆续给Mycat贡献了多数据库后端支持、动态平滑扩容、分片算法、压缩协议等多个核心特性,还参与Mycat线下技术峰会的演讲。“对Mycat源码也熟悉的像自己的掌纹一样清楚。”曹宗南说道。触摸新技术时代的网红Serverless在谈及现在的工作内容中,曹宗南提到了Serverless技术。正如开篇所提到伯克利在《Cloud Programming Simplified》中的预言,Serverless将成为云计算的下一代默认计算范式。曹宗南解释道,Serverless架构是在微服务架构基础上的进一步延伸,按照业界通常的定义,Serverless = FaaS(Function as a Service) + BaaS(Backend as a Service)。相比微服务,FaaS将资源调度的粒度缩小到函数,针对无状态、短时处理任务,通过函数式编程方式,进一步降低了应用开发门槛,缩短了应用上线周期。为了更好的便于理解,曹宗南从三个典型场景,解读了Serverless架构所具有的IT资源可根据需求弹性伸缩的特点。场景一:Web类应用。典型的应用有小程序后端、Web后端、三方服务商对接、前端BFF等。这类应用使用函数编程可以极大简化开发流程,能够做到小时级交付; 场景二:IoT、媒体处理类应用,如实时的图片处理、实时的数据流处理、IoT的事件处理等。这是Serverless最典型的一类应用,特点是事件驱动+计算胶水层,计算胶水层的逻辑通过函数来实现,以事件驱动的方式执行服务,按需供给,开发者无需关注业务波峰波谷,节省闲时成本,最终降低运维的成本; 场景三:AI处理应用,如视频直播、AI推理、人脸识别、车辆识别等,这类应用的特征是基于各行各业的业务智能化,通常无法预知流量大小,需要基础设施能够做到底层资源无感,自动的快速弹缩而不影响业务层的处理。随着在Serverless技术的研究和实践过程中发现,Serverless作为云计算下半场的计算范式,需要解决通用应用开发、原有应用系统无缝对接、支持异构硬件等问题,并且有完备的工具链、云服务,才能让更多的开发者享受Serverless带来的红利。华为云FunctionGraph开启Serverless新时代在华为全联接2021上,华为公司高级副总裁、华为云CEO、消费者云服务总裁张平安重磅发布了华为云FunctionGraph函数计算服务。FunctionGraph是一款带编排能力的函数计算服务,提供了界面化管理、一站式的函数开发上线功能,支持6大类语言、支持10+类的函数触发器类型;拥有丰富的触发器类型,通过事件触发集成多种云服务,满足不同场景需求;根据请求的并发数量自动调度资源运行函数,实现按需极速弹性;函数运行实例出现异常,系统会启动新的实例处理后续的请求,实现秒级故障自愈。曹宗南作为华为云FunctionGraph首席架构师,全程参与了FunctionGraph 2.0全新架构的设计和研发。针对FunctionGraph 2.0全新架构,他从5个特性做了诠释。• 特性1:丰富的函数开发语言及触发方式让设计更灵活支持Python、Java、Node.js、Go等常见的编程语言,也支持容器镜像和自定义运行时。函数调用支持同步和异步两种方式,最长支持12小时,可满足长时间任务的需求,大大突破传统Serverless的适用场景。• 特性2:可视化拖拽式函数流支持编排复杂业务场景支持通过图形化拖拽方式进行函数编排,支持并行分支、条件分支、子流程、循环、异常处理等,可以满足多函数场景下的快速编排需求。• 特性3:统一插件支持云上和云下的开发与调试如何对函数进行调试作为Serverless场景的一个难点,华为云针对云上和云下两个场景都提供了解决方案,而且作为业界首家支持多函数调试能力。• 特性4:Http函数让WEB服务近乎0成本改造,享受Serverless优势能力微服务和函数在未来几年会是一个共存的形态,当前存在着大量微服务应用,如何高效的支撑其Serverless化,让现有微服务快速享用到Serverless的优势能力,是一个待解决的问题。针对Web服务,华为云推出API网关加FunctionGraph的Http函数方案,用户只需把原有的Web Server代码打包为一个Http 函数,即可完成Serverless化改造。该方案价值体现在多语言WEB框架支持方面,例如:Java - Spring Boot,Nodejs - Express等框架,这样对于开发的应用通过极小修改就是能完成Serverless 函数化改造。开发人员可以继续使用熟悉的开发框架和测试工具,降低开发人员学习负担。而且,改造后也无需额外的运维,简单配置即可实现100ms级自动弹性和灰度升级。• 特性5:函数支持在运行时动态指定资源,灵活调度节省成本图片压缩、水印处理、文档转换、视频转码是典型的事件触发,波峰波谷明显的场景,越来越多地使用Serverless 函数来开发业务。以视频转码为例,典型的处理流程如下:视频文件的大小从MB到GB,不同编码格式和分辨率对转码需要的计算资源要求差别很大,为保证转码函数的性能,通常配置一个很大的资源规格,但是在低分辨率的(例如短视频)场景下,会造成资源浪费。Functiongraph提供了一种方案支持函数执行时可根据业务需要动态指定资源规格,最小化资源占用,可以给用户带来更精细的资源控制,更低的成本开销。目前,在华为云Serverless场景落地方面,已全面实现了在移动端的应用实践。曹宗南举例道,2020年新型肺炎疫情牵动着全球人民的心,基于Serverless服务,华为负一屏快速上线“新型肺炎疫情实时播报”,实现了一天上线,资源利用率提升50%。在视频处理应用场景中,华为视频前端基于函数开发,实现前端开发和后端开发解耦,前端界面逻辑变化不需要后端参与,开发上线效率提升100%以上,大幅减少前后端团队沟通协同,效率提升50%以上。在海外的合作伙伴应用中,阿联酋海关基于Functiongraph的弹性收缩轻松应对业务波峰波谷,TCO成本较传统方案降低30%以上,较传统开发模式上线周期减少50%(6个月->3个月)最后事实上,目前的Serverless发展已经远远超出了预期。对于云计算应用架构来说,“无服务器”时代的Serverless技术必将引领云计算下一个阶段。正如华为2012实验室分布式与并行软件Lab主任谭焜博士所说,Serverless将是微服务的“封顶之作”,也是推动应用现代化的基石。
  • [行业资讯] 你的水杯里,藏着影响世界的顶级工艺
    有些东西,当你真正注意到它时,或许已经来不及了,密封件算其中一个。 小到水杯、保温盒上的密封圈,大到核电站中重达百吨的金属密封环;密封件作为物理世界的“无缝连接器”,被应用到人类生产生活的方方面面。它们总是甘为“配角”,藏于细节,却深刻影响着世界。 密封领域的“木桶效应”密封件是用来防止流体或固体微粒从相邻结合面间泄漏,以及外界杂质如灰尘、泥沙、水分等侵入的零部件,其工作原理是自身被挤压后发生弹性形变,产生接触压力,当这个压力大于被密封介质的内压时,则不会发生泄漏。 例如在保温杯的杯盖内装上密封圈后,拧紧杯盖的过程中密封圈被不断挤压、发生形变,最终牢牢塞满杯盖与杯身间的缝隙,防止水溢出,减少热量的散发。如果有一天你突然发现这个密封圈脱落或发生严重变形,那就说明你需要物色一只新杯子了。 别不信,密封件虽然看着不起眼,但在保障设备安全稳定运行中却起着举足轻重的作用。历史上一架航天飞机发射失败的原因,就是固体火箭上的密封圈在低温环境中失效,导致燃料逸出,从而引起了爆炸。密封件之所以如此关键,是因为它在工业制造中,往往是那块决定木桶最多能装多少水的“短板”。换句话说,如果密封件承受不了设备结合面的压力、腐蚀、温度等考验,即使设备其它模块的用料再好、性能再强,也完全没有意义。 因此,密封件的研发生产也成为了长期困扰企业,尤其是高精设备制造企业的一道难题。 像“高定”,更像“开盲盒”郑华安是厦门麦丰密封件有限公司的材料专家,也是这道密封件研发难题的解题人之一。当团队接到研发需求时,他便需要带领团队,准确地说是徒弟们,展开数十天甚至几个月的攻坚。从需求分析到配方设计,再到配比实验、成品检验,任何一个性能参数不达标都意味着要回到配方环节重新开始。 另一方面,很多高新技术企业对密封件的性能要求也越来越高,有时一个橡胶圈需要在满足耐油性、耐变形性要求的前提下,将厚度压缩至0.15毫米,无异于在针尖上画画。每一次研发都堪比“高级定制”,对于郑华安这样拥有20多年研发经验的专家来说,都是不小的挑战。 据郑华安透露: “ 原材料配比是企业的核心机密,参数稍有不同就会对密封件质量产生很大影响。但配方研发主要依靠我们的经验,手把手带着徒弟做实验,整个开发试验效率低、周期长,大大阻碍了新品研发的步伐。” 在他看来,每一次检验成品参数都像是在“开盲盒”,配方设计过程中无法预判实验结果,只能凭借过往的经验让“开中”的几率大一些。在厦门麦丰,像郑华安这样的专家还有很多,他们每天工作10小时以上,带出了一批又一批的徒弟,但仍然难以满足企业日益扩大的生产需求。 双脑联动,精准“开方”直到2020年,一位“新徒弟”的加入改善了厦门麦丰的研发生产情况,它就是麦丰工程师基于华为云ModelArts构建的橡胶质量预测AI模型。 该模型不仅能向材料专家、工程师们“拜师学艺”,获得行业专家的知识经验,还能从多体系历史大数据中总结规律,构建准确率高达90%的配方质量预测模型,从而辅助工程师们高效、精准地制定配料方案。 据厦门麦丰材料研发工程师李锦杰介绍,为了进一步缩短研发周期,橡胶质量预测AI模型会同时提供符合产品质量要求的多个材料配比,供研发人员进行实验和检测,这种“AI预测,多线并行”的研发方式,让单配方的开发耗时从过去的28天降到5天,每年节省开发成本约100万元。 橡胶质量预测AI模型如同拥有无限算力的“云端大脑”,工程师们则是更富实践经验、了解研发需求的“企业大脑”,双脑联动实现精准“开方”,让企业的研发生产降本提效。 在这个过程中,AI模型不断积累“经验”,成为越来越智慧的人类助手,企业员工也从高强度、重复性强的工作中解脱出来,去拓展职业技能,精深钻研感兴趣的领域,让每一次劳动与付出,都因闪烁着“人的智慧”而弥足珍贵。 科技润物无声改变不仅发生在厦门麦丰,华为云厦门创新中心还联合众多合作伙伴共建工业软件生态圈,帮助企业提高生产效率近30%。众多传统企业乘“云”而上,快速转型,成功突破了发展瓶颈,向充满想象与机遇的未来持续进发。 这场数字化变革始于“云端”,但也终将以细致入微又润物无声的方式渗透到人们的生活之中。一个装在保温杯或保鲜盒上小小的密封圈,就让能我们远离很多麻烦,得以从琐事中抽离,去遇见生活中更多的“小确幸”。 一次密封材料研发上的突破,可能会让产品的性能强化数倍,成本降低数倍,最后为我们带来更多物美价廉的“好物”。这些美好的事物将陪伴我们的衣食住行,融入幸福生活的点滴记忆。 数字化带来的是创新、营收、薪酬回报,更是通过解决行业和社会问题为人们带来便捷、愉悦和长久价值。当创新的产品和体验真正走进每个家庭,融入大众生活,人们才能离美好生活更进一步,数字化的价值也将真正得到彰显。 转自华为云公众号
  • [问题求助] 【问题求助指引】如何让你的问题求助帖命中靶心,得到专家快速有效回复?助力问题快速定位解决!!!
    为了给每一个GDE用户提供更优质、高效的问题求助、分享体验,为避免因发错版块,导致问题无法得到及时回复、同时为了各位用户问题能得到对应专家解惑,做了如下说明,希望各位用户在发帖是能精准发帖,相关求助问题能及时得到解决回复。先搜索,后提问     遇到问题时可以通过社区的搜索功能,看看是否有其他人提到过类似的问题,或者提供了相似的示例。如果搜索没有结果,请在发帖时尽可能提供相关的信息,以便尽快定位分析: 环境地址租户名称环境的GDE版本(不清楚的查看下方指引1)工程名称问题描述问题截图复现问题的操作步骤如果是咨询实现方案,请详细描述需要实现的功能如果是紧急问题,请扫码添加【华为GDE官方小助手微信】,回复“紧急问题”,同时将问题贴发给小助手,工作人员将通过微信提供快速支撑。        注:请务必先在社区发问题求助帖,小助手才好分配对应开发指引1:如何查看GDE版本
  • [技术干货] 专家解惑 | 关于华为云盘古大模型,你想问的都在这里~
    4月25日,华为云CEO余承东在华为开发者大会 #HDC.Cloud 2021 期间,重磅发布了华为云盘古系列大模型,帮助千行百业解决 AI 模型难以泛化和复制的问题,开启 AI 工业化开发新模式。华为云盘古大模型基于华为云一站式AI开发平台ModelArts构建,包含了:华为云盘古NLP大模型:是业界首个2000亿参数中文预训练模型,预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型。华为云盘古CV大模型:是目前业界最大的视觉预训练模型,包含超过30亿参数对于盘古大模型,大家都充满了好奇~AI新入门:如何快速进入相关方向学习和研发?AI开发者:盘古大模型的易用性、使用成本、落地场景、端侧性能如何保证? 华为云AI开发者社区挑选了一些HDC.Cloud现场开发者的热门问题,专访盘古大模型的核心研发人员谢凌曦博士和张晓鹏博士进行答疑谢凌曦博士专访Q:作为一个开发者,请问这些预训练模型的易用性如何?使用成本有多高?谢凌曦博士:预训练模型本身设计的目的就是为了让大家在使用云服务的时候降低成本,那么我们预训练模型因为它是预训练,所以我们已经在后台完成了这样一个训练过程,这个过程的成本是比较高的,但是成本的不会需要开发者本身来承担。在使用这些模型的时候,它本身易用性和成本都会在设置在一个比较合适的位置,比如说我们会开发出一些比较通俗易懂的pipeline,如果你是有一定基础的开发人员,你也可以从我们pipeline当中去做更多的定制化的开发,更好的去释放我们预训练模型的能力。如果你只是一个小白,就想用我们的模型去做AI的一些简单的开发,我们也会给你一些更加通俗易懂的界面,让大家能够用一些拖拉拽的方式去使用我们的训练模型,同时成本相对来讲是比较低的,我们有很多种不同的这种计价方式,但是总体来讲,预训练模型都是降低了大家后续使用的时候它的一个计算时长,包括你的这种调仓所需要的重复的代价,这都会被降到一个很低的程度,总体来讲是对开发者非常友好的。Q:华为视觉计划里面提到了很多计算机视觉的新方向,那么对于新入门的人来说,如果想快速投入新的方向中去学习,需要掌握什么哪些知识才可以快速进入到相关方向的学习和研发中。是否需要先掌握传统全监督学习才可以更好的掌握弱监督和无监督数据的方向的研究中呢?谢凌曦博士:总的来讲是一个非常好的问题,我自己刚入行的时候也有过类似思考,是因为不管怎么说,人工智能计算机视觉都是经过几十年的发展,到现在为止已经是一个很庞大的知识体系了。如果一个人想要把这些东西都了解以后,开始做研究的话,稍微效率会有点低,而且你会花费很多不必要的精力去做一些事情。所以我们给大家的这样一个建议是说,你在学习过程当中,你可以先找准一个问题,这个问题可能一开始是一个相对初级的一点的问题,比如说刚才谈到我想做一个弱监督学习,那么我一定是有一个具体的场景,比如说在现在有一个问题当中,我遇到一个实际的问题当中,他确实需要用到弱监督的算法,但这个时候我是不是一定要先掌握全监督,并不是这个样子,你可以先去查阅一些,比如说当前弱监督学习,它的基线是什么,它的前沿在哪里,然后你就可以去做一些简单的实验,在这个实验的过程当中,你一般会遇到一些困难或者遇到一些疑惑,这些疑惑为了去解决,它一般就会帮你把你引导到这样一些它的基础,比如说全监督到底是怎么做的,那么你有了这样一些更多的基础以后,你回过头来也会对你当前正在做这个算法有更好的理解,所以我的建议是大家可以找一本教材,一个对机器学习也好,计算机视觉也好,这些比较介绍的比较深入的一个教材看。但是另外一方面也不要局限于这样一个教材,你可以一边做一个具体的课题,一边去学习这样一些知识,这样的话会比较有效率一些。张晓鹏博士专访Q:图像预训练模型有哪些成功的落地?跟业界比较处在什么位置?我们的智能驾驶系统有用到这方面技术吗?张晓鹏博士:已经在华为内部以及其他合作项目上有100家的一个成功的落地,那么这些方向其实涵盖了各行各业,我们在一些工业视觉,包括一些网络审查,包括一些零售商超以及医疗上,其实都获得了一些相较于我们之前不使用预训练模型更高的一个结果。在某些场景上,比如刚才提到的遥感印象上,我们通过这样一种遥感针对遥感影像这样一种预训练算法,其实在没有增加额外的这种标注代价的情况下,其实是达到了最多10%的这样一种分割精度的提升。那么还有另外一个比较有意思的现象就是说,我们其实在超大规模,我们这里大概用了几千万到亿级的图像的预训练,然后我们直接把这样一个模型,然后迁移到了我们的工业质检的缺陷上。然后其实我们非常欣喜的发现一个有意思的现象,就是我们在下游数据集上其实没有进行任何微调,然后但是我们在这样一个工业缺陷检测上,其实获得了比之前的更高度的优化,甚至利用下游的数据微调,基本上还会更好的结果,这个结果基本上会高出3~4个百分点。也是启发我们就是说我们的模型的数据一旦够多,其实它的泛化能力其实是从隐式的能够获得一种保障。第二个就是说我们的到了什么地步,我们其实是国内公司里面其实是最早做视觉艺术的模型的公司之一,据我了解其实在国外的话是Facebook和谷歌,其实从2019年开始在图像上面做了一些应用,我们这一块其实我们的视觉医学的模型开发其实大概在2019年的时候然后就开始了。所以说到目前为止,其实我们在一个大模型或者这种方针下,搭载我们的一些模型,蒸馏抽取其实以及行业大模型,我们现在其实已经适配了大概10余种这样一种预训练模预训练这种模型,而这10余种模型都是通过我们的一个大模型的一种分发抽取所得到的得到的,然后它在相应的行业上其实是得到了一种非常大的精度提升,同时也极大的减少了这样一个标注以及模型的迭代。Q: 机器视觉应用场景很多,不同场景图像角度,物体尺寸等影响因素很多,我们预训练是采用什么类型数据和学习任务?如果想落地某些特定场景还需要多少数据对特定任务进行模型微调?大模型如何保证端侧性能?张晓鹏博士:这一共有三个问题其实问的非常好,然后其实针对整个在机器视觉图像它的不同的角度,就是说整个整个或者刚才提到的可能不同的变化,其实我们采取的方法其实非常简单,其实一我们可能有海量的,数据集这个数据集规模其实已经达到了一级甚至10亿级这样一种规模,我们相信海量的数据集它是能够建模我们在实际场景的方方面面。另外一个我们采取了什么样的这种学习方式,其实它的一个核心思想就是2019年开始比较火。这样一种对比度之间都学习的方法,然后当然了我们这上面做了很多改进,包括如何来利用一些弱标签的信息,包括如何把这种全局的信息拓展到局部,来更好的建模它在局部的一种相关性关系。然后刚才同时的话也会就是说呼应了刚才提到的我有不同的视角,不同的这种角度,不同尺度问题,那么怎么来让它进行高效的建模?其实这里面就是让它不同的数据增强,我们在其实预训练算法里面是集成了数千余种的这样一种数据增强方法,然后让他通过不同的数据增强,然后让这个模型具有针对不同数据增强它的不变性来建模。Q:华为的预训练模型是如何结合不同行业知识,解决标注数据大的问题?张晓鹏博士:举一个就是我们HDC上发布的国网电力的巡检的例子,其实这就是一个非常典型的我们的视觉预训练大模型来如何解决这样一个行业知识。在这样一种国网电力的过程中,其实它有一些海量的数据,然后标注是非常困难,我们做了一个什么事情,就是我们通过我们的视觉医学的算法,然后在海量的这样一种巡检数据上进行了一一个批次的预训练。然后医学院其实是利用了我们无人机巡检的就是数10tb就是说上百万的这样一种规模的数量,然后来进行一种预训练。然后它的预训练其实是可以看到我们非常多的数据它的内在分布,然后由于我们的大模型模型参数量越大,然后我们也看了更多的数据,然后所以说它能够更好的建模,就是说在电力行业它的无人机巡检过程中的的一些,图片之间的细微的差异。然后我们当时也给了一个数字,就是说我们利用我们的视觉预训练大模型,然后它能够提供更好的一个表征以后,因为它的一个缺陷和正常样本的一种表征能力更强,我们在标注代价上基本上是减少了80%以上。一块的话整个在人力代价上是一个非常大的提升。另外一个就是减少标注,其实就是我们一个模型其实是可以适配我们电力行业的100多种缺陷,我们这个适配100多种缺陷的话,就让模型的迭代周期大大的减少。我们大概减少了就是说整个把迭代周期减少了10倍。然后这样子的话我们在每次迭代的过程中更少,就是说我反馈给人需要标注的这样一种整体的工作量就会越少,所以说通过这两种模式,然后我们实现了在电力这样一个行业方面,利用我们的这样一种视觉医学的模型,极大的提升了我们的一种开发效率。本文来源:https://bbs.huaweicloud.com/blogs/263786
  • [技术干货] 华为云细粒度文本情感分析及应用-华为云 NLP算法专家分享
    分享嘉宾:李明磊博士 华为云 NLP算法专家编辑整理:付一韬出品平台:DataFunTalk导读:随着移动互联网的普及,网络上每天产生大量的文本数据,蕴含着巨大的有价值信息。情感分析作为自然语言处理中的一个重要研究方向。在实践中有着广泛的应用,如商品评论分析、政治、金融、旅游等领域中的商品推荐、产品辅助决策、公司政府的舆情监测、服务评价等等。本文主要介绍情感分析的概念、应用、任务和方法,进一步会介绍华为云在细粒度情感分析方面的实践,包括属性级情感分析和观点四元组分析。主要内容包括:文本情感分析介绍属性级情感分析观点四元组分析总结一、情感分析介绍首先介绍下文本情感分析的基本概念。情感分析,主要是识别媒介中目标对象的情感,这里面可能有两个概念比较容易混淆,一个是sentiment analysis,另一个是emotion analysis。一般我们说的情感分析都是sentiment,主要指的正面和负面的分析,然后emotion会更详细一些,它不仅包含正负面,还包含比如说生气、开心、高兴这些,会更加细粒度一些。我们主要分析sentiment,从分析对象来看会包含文本、图像、语音,EEG(脑电波)、多模态分析情感。从任务方面来看,不仅是有情感的识别,还有情感生成的一些任务,像现在有情感对话的生成,还有虚拟人情感生成。在本报告中,主要侧重文本方面的情感识别。1. 文本情感分析上面文本情感分析五要素定义是采用刘冰老师的定义,这个定义分为了实体 ( entity )、实体的某一个方面 ( aspect )、针对这个实体的情感正负面 ( opinion=sentiment,即情感正负面也称作观点正负面 )、观点持有者 ( hold ) 和持有观点的时间 ( time ) 这五要素,一般来说hold和time文本很少提及。另一个概念一般会把entity和aspect合并在一起成为一个target,是针对我们目标对象的情感或者观点。例如:“我觉得华为手机的拍照非常牛逼”这里面对应的实体是“华为手机”,对应的aspect是“拍照”,对应的情感是“非常牛逼”为正面,对应的观点持有者是“我”,而时间没有提及所以为空。当前的文本情感分析就是根据输入文本,然后识别其中这五要素里的几个要素,现在还没有相关工作可以同时识别出五个要素。一般的话现在最简单的情感分析是只识别出这个文本的观点/情感,既不包含实体也不包含aspect并且也不包含观点持有者,再进一步的工作就是识别出针对哪一个aspect(实体)的观点(情感)。这里简单介绍一些细粒度情感分析和我们说的一般情感分析的区别。一般的情感分析都是直接识别整个文本的正负面,然而细粒度情感分析会更细一些,这里面有两个概念,一个是从情感的粒度上会更细,比如从sentiment到emotion的情感粒度升级,之前我们只分析正负面,现在除了正负面还有情绪,如高兴、伤心等,从情感这个维度讲这是一种细粒度情感分析。还有一个是从分析对象的角度来讲,之前的情感分析是直接识别整个句子或整篇文章的情感,它不区分情感对象是谁,再细粒度一些的话就需要识别出整个句子里面情感针对的对象是谁,它是句子里的某个实体或者是某个实体的某个属性,从这个角度这也是细粒度情感分析的一种,我们今天主要侧重第二个针对对象角度的情感分析。2. 情感分析任务下面介绍一下情感分析的各个任务,这里面分析是情感的识别,不包含生成,还有前面提到的语音图片也不涉及。针对文本的情感分析会分成几个等级:词级别的情感分析:这个类似于情感词典的构建,怎么去构建一个大规模的情感词典,比如“车祸”这个词对应的情感就是负面的,“生日”这个词对应的情感就是正面的。句子/文档级的情感分析:我们现在用比较多的,各大云服务厂商都会有的一个服务,针对句子或者文档的情感分析,输入一句话返回相应的情感正负面,但它不区分正负面针对哪一个句子里面哪个实体或者哪个对象。目标级的情感分析:这是我们今天侧重的目标级的细粒度情感分析,这里面的目标就是上边说的target,它可以是一个实体也可以是一个属性,还可以是实体+属性的组合形式。对于目标级的情感分析分为三种:针对属性的情感分析 ( TG-ABSA ):这里面对象是固定然后只分析里面某几个属性的正负面,这就会涉及到两个任务,一个是对象的属性识别,另一个是该属性的情感识别。例如图中的例子“外观XXX”,这里的对象是固定说的是手机,我们只需要识别出其中的属性外观、内存和性能,然后分别识别出各个属性的情感正负面。针对属性识别也分成两个任务,一是属性词的抽取,就是我们要定位出属性描述词在文中的位置,另一个是该属性描述词对应的属性类别,因为针对某个属性的描述可能是“外观”也可能是“看起来很好看”,它这个描述不一定包含显性的属性描述词。针对情感识别会分为观点词抽取和观点分类。针对实体的情感分析 ( TN-ABSA ):这里是文本中只有实体而没有属性,只针对实体的情感进行分析,这涉及到的两个任务,实体识别和情感识别。实体识别分为实体词抽取和实体分类,情感识别分为观点词抽取和观点分类。针对目标的情感分析 ( T-ABSA ):这里面的目标就是实体+属性的组合,例如:“小米性价比”、“华为拍照”等,这会比上面两个任务相对更细一些。目标识别分为目标词抽取和目标分类,情感识别分为观点词抽取和观点分类。针对情感分析,简单介绍一些方法简史。最早的一个方法是基于字典加规则的方式,我们人工构建一个情感词典,每个词都有对应的正负面,然后根据句子中正面词和负面词的数量,最后做一个投票,这是一个最简单的方法。后边就有了基于机器学习的方法,像传统的机器学习SVM等,将情感词典和词袋作为它的一个特征。再进一步就是深度学习,还有就是现在的基于预训练语言模型+fine tune的方法,应该是现在效果最好的一个方法。二、属性级情感分析下边我介绍一下我们其中的一个工作,属性级情感分析(TG-ABSA),这里面实体是固定的,分析它各个属性的正负面。像上面句子级情感分析是大部分厂商提供的,比如“买没几天就降价一点都不开心,闪存跑分就五百多点”,这个整体是负面,但是它针对价格和闪存两个属性都有相应情感,这里并没有区分。属性级情感分析这个任务就是给定属性的类别集合,然后预测它各个属性的正负面。其中,这里的表达也分为两种,一种是显式的观点表达,另一种是隐式的观点表达。显式的观点表达会显示提到属性的属性词和观点词,比如“手机内存非常大,系统流畅,性价比非常高”,这里属性词“内存”、“系统”和“性价比”都有显示的提到,而像“手机太贵了,颜值非常高,一点都不卡”,这里“手机太贵了”、“一点都不卡”表达的属性分别是“价格”和“性能”,但是没有相应的属性词。针对这两种不同的表达方式,处理方式是不一样的,后边会介绍一种专门针对显示的方法。1. 属性级情感分析—相关工作介绍① 无监督方法:最传统的一个方法是无监督的,这种方法的优势是不需要标注数据,比如使用基于句法解析的方法,先抽取句子里主语谓语宾语的表达方式,比如“服务员很漂亮”,通过抽到的主语“服务员”和它对应的形容词“漂亮”,这样我就可以知道它的评价对象是“服务员”,观点是“漂亮”,再根据查情感词典知道这是一个正面的情感,这样就可以得到针对服务员的评价是正面的。这种方法只能处理显示的表达,如果是隐式的表达,因为句子中没有属性词,那么通过句法解析没法得到对应的角色,所以无法分析来处理隐式的表达。这种无监督方法的优点是不需要标数据,缺点是准确率相对低一些,没法处理隐式表达。② 阅读理解方法:最近的一个工作是复旦邱锡鹏老师组提出的基于深度学习的方法,分析一个句子里面各个属性的正负面,他把这个问题转化成一个阅读理解的问题,本来一个句子有N个属性集合,他把句子和属性转换成句子-属性 pair。输入一个句子,这里面aspect可以描述成阅读理解的一个问你题,比如“针对外观评价是怎么样的”,这样转换成问答对的方式,然后基于Bert来识别这个问答对正负面的答案,这是一个比较新的工作。这种方式的优势是比较灵活,属性可以无限的扩充,不管是新增或者减少属性,都可以用这种方法直接取处理,而且准确率还比较高。但是这种方法的缺点就是它的效率相对要低一些,因为如果有N个属性,在预测的时候,它需要预测N次才能得到结果。2. 属性级情感分析—方案介绍我们提出了一个基于类似多标签,多任务的方法。整个任务给定属性类别集合,然后预测每个属性的正负面。这里面的难点是,首先我们大框架使用的是有监督的方法,因为最终我们想要把应用部署到华为云的服务上,所以准确率要求是比较高的,要求达到90%以上,一般无监督的方法无法满足,所以还是需要有监督的方法。这就需要标注数据,如果是多个属性它的一个问题就是标注起来比较困难,比如说一个手机评论可能会涉及到二三十个属性或者说甚至上百种属性,如果要标数据的话,这会非常的困难。我们的方法不同于传统的多标签分类,像文本多标签分类任务的类别有政治、经济、新闻,该任务只涉及标签是否出现,但这里不一样的地方是它不仅涉及到属性是否出现,还要预测出属性的正负面,相当于每个属性都要预测出它的三个标签—正面、负面和未出现。相当于每个属性是一个多分类任务而不是一个二分类任务。之前那种多标签分类,一般最后会把每个标签转化成logits,这里的话用这种方法就没办法处理。然后还有就是隐式表达。我们解决的技术思路是,把它转换成一个Multi-task多分类任务,每个属性都处理成一个多分类的任务,所以它输出不是二分类而是一个多分类。在标注数据的过程中,我们引入主动学习的思路,先标注一批少量的数据,然后用模型对剩余未标注的做一个预测,然后再对那些置信度比较低的再去人工审核标注这些数据,如果置信度比较高的就不用再标了,这样的话可以提高标注效率。另一个方法是,如果一个样本同时标注多个属性,这个标注成本是很高的,我们引入Label mask的思路,就是在训练的时候 某几个属性可能标也可能没标,如果没标的话就把这个属性mask掉,然后在计算loss的时候该属性就不参与计算了,只将那些已经标注的属性参与loss计算和反向传播的计算,这样的一个好处就是我在真正标注样本的时候想标注哪几个属性就标注哪几个属性,不用每个样本的所有属性都要标注,这样标注就更加灵活,可以先针对某一个属性只标注它,标完该属性后再标另一个属性,这实际上是一个很灵活的标注。使用这个方法的一个优势是,它最终基于深度学习模型,准确率比较高,也支持隐式的表达,因为深度学习可以编码各种语义的表达,还有一个就是我们这种方法可以提高标注效率。在中间编码这块可以是基于bert、roberta这种预训练语言模型,最终输出使用label mask的方法。3. 属性级情感分析—结果上面是我们最终的实验结果,针对汽车领域测试样本大概有7000多个,每个样本平均的属性数量是4.27个,其中预定义的属性集合是8个,最终可以看到每个属性的准确率都是很高的,基本上达到90%以上。针对手机领域的结果基本上也是每个属性F值基本上能达到将近90%。右上角的图是针对每个属性预测的标签的置信度的阈值,随着阈值的上升,命中的属性(即预测的标签的置信度在阈值以上的属性)准确率也在上升,而Attribute Hit Rate(即预测标签的置信度在阈值以上的属性占比)也随着阈值的上升而下降,即有些属性预测的标签的置信度低于阈值,但是命中的属性预测出标签的准确率是慢慢上升的,这个也是符合我们的一般认知的。这个的一个好处是最终产品上线之后,用户要求有一部分不需要人工审核,另一部分则需要人工审核,当达到某个阈值之后,他们就可以不用参与人工审核。通过调节阈值,让某些属性的指标达到了这个阈值,比如准确率都达到95%,这一部分就不需要人工审核。4. 属性级情感分析—应用案例这是我们基于多属性情感分析的一个应用案例,这是汽车领域的案例,针对网上很多的汽车领域的评论,我们可以分析汽车在八个属性维度上的正负面评价。上图左上角里红色的线就是一个行业的平均水平,蓝色的线是针对这个车它的各个维度的雷达图像,这样就可以很方便地对比出不同车型,它的一个好坏。可以方便用户在产品选型的时候做一个对比,也可以方便厂家针对评论本身对他们的产品做相应的改进。三、观点四元组分析1. 四元组观点挖掘—介绍上面讲到的虽然可以分析出各个属性的正负面,但是它的一个缺点是没办法定位出针对某个属性具体评价的属性描述词位置和观点描述的位置,因为有些用户不仅想要找到属性正负面,还要找到它对应的评价位置,所以我们这个工作是针对观点四元组进行挖掘的。观点四元组挖掘这个任务不仅要分析出各个属性的正负面,还要定位出它属性描述词的位置以及观点描述词的位置。比如“手机内存非常大”中属性描述词定位到“内存”,评价词定位“非常大”,对于“性价比非常高”这句话,属性描述词定位到“性价比”,观点描述定位到“非常高”,不仅要识别出属性的类别还要定位到位置,所以这里一共有四个要素要预测出来,分别是属性词、属性类别、评价词和评价极性,其中属性类别和评价极性在前面的工作已经做到了。2. 四元组观点挖掘—方案针对这个任务,我们提出了一个基于抽取加分类的联合模型,上图是我们现在采用的框架,底层是基于编码的模型,可以是bert或者roberta等,然后将句子编码成一个向量表示。图中左边这侧是用于定位属性描述位置和观点描述位置的,是一个序列标注模型,比如这里B_A是属性描述词起始位置,I_A则是在属性描述词中间的位置,例如这里“内存”和“颜色”都是属性描述词。在这里最上层用的是CRF序列标注模型来进行属性描述词的抽取。图中右边这侧对应的跟上面的工作有点类似了,有N个属性对应有N个输出,然后对应每个属性预测它的正负面和未出现这几类。左边做属性词抽取,右边做属性正负面预测,最终可以输出每个属性的四元组(属性类别,属性描述词,观点描述词,观点类别)。3. 四元组观点挖掘—数据标注这里的比较耗时间的工作就是数据标注,因此我们专门做了四元组观点挖掘的数据标注平台。上面“简单”这个分类标签是为了解决标注过程中有些不同标注人员他可能对同一个样本就会有冲突,他觉得这个样本比较难标或者好标的话这里就是用这进行区分,如果样本好标会打个“简单”的分类标签,如果让他觉得不确定,他会不打“简单”的标签,即“复杂”标签。因为我们标的属性比较多,涉及到差不多三四十个属性,这里做了一个对属性做了大致的分类。这里的标注任务是类似于关系抽取里面3元组的标注任务,先标注属性描述词,然后再标注它的观点描述词,这里面它两个其实是形成一个搭配关系,这个类似于一个三元组中实体和实体及他们的关系,只不过这里的关系是一种搭配的关系,将它们连起来就可以了,最后再加上它对应的正负面以及属性描述词对应的属性类别,这样每个样本的四元组就标出来了。上图左边是我们标注大概两万条手机评论的数据分布,其实可以看到数据分布式非常不均衡的。这个是拿到真实用户在线上评论的数据,有些评论会偏的非常多,然而有些类别评论会非常少。上图右边是针对所有属性对应正负面的分布,这个也是非常不均衡的,正面的评论比较多,负面的评论会相对少很多。4. 四元组观点挖掘—结果上图为我们最终的评价结果,因为它是一个四元组既包含分类也包含抽取,对于评价指标我们用了一个Fuzzy F1值。我们对每一个属性加正负面标签作为一个评价对象,比如“外观正”作为一个评价对象,然后去找它对应的位置,计算这个位置它们字符的重合率(包括观点描述词和属性描述词的重合率)这样去算它的F值。EM F1值是预测描述词的位置完全精准匹配,稍微有一点不对也算错,这个比前面的指标更加严格。在编码器这部分我们尝试了几个不同的编码器,包括bert、roberta还有nezha等。由于我们有很多未标注的数据,基于这些数据我们做了领域的预训练,然后再进行fine tune。右图展示了不同指标下的结果,可以看到在未标注数据上进行领域预训练的话是可以带了一个点的提升,Fuzzy F1能达到0.79。另外,这个评估指标对于人的实际感知不太直观,我们随机抽取500条数据进行人工评价。人工评价的过程是每个样本预测出每个属性标签和正负面且包括它们的位置,将这样的四元组抽取出来进行人工评价,判断预测是否合理,如果合理标记为1,如果不合理则标记为0,这样来看人工对模型预测的指标判断。人工评价的准确率是非常高的,差不多96%的准确率,即人工认为预测是合理的。这两个结果差别是比较大的,但也是比较合理的,因为在数据标注过程中,不同标注人员对观点描述词的位置以及属性描述的位置也可是会有歧义。比如“外观非常好看”这句话,有些人观点描述词会标“好看”,有些人就会标“非常好看”,这其实对最终预测结果影响不大,但是如果用字符重合率的方法,那会严重影响计算这个指标,所以说它两个差异比较大也是合理的。5. 四元组观点挖掘—Demo上图是我们一个简单的demo,输入一个样本,生成对应每个属性的正负面,当点击某个属性的时候它对应的评价词位置就可以高亮出来,红色代表属性描述词,绿色代表观点描述词。上面说的人工评价就是这些结果预测出来后,人工看看预测是否合理。四、总结本文主要介绍了情感分析的一些基本任务,包括文本、语音、图像还有生成、识别。对于文本情感分析任务做了详细介绍,重点介绍了两个工作,一个是属性级情感分析,这个是给定属性集合情况下,预测每个属性的正负面,我们将它构建成了一个多任务分类。另一个工作比上面的粒度更细一点,不仅要预测出属性正负面,还要定位出它具体的属性描述词和观点描述词的位置,我们把它做成了一个抽取加分类的多任务联合模型,既包括抽取也包括分类。对于未来的趋势,我们在实际做的过程中发现大家在工业界会碰到标注数据成本非常高的问题,每一个任务基本上我们需要标将近两万条数据,所以最终的效果准确率是比较高的。另一方面,对于模型加速这部分,由于使用深度学习像bert这种预训练模型,它的推理成本还是比较高的,我们华为可以对硬件进行底层适配。对于领域迁移未来也是关注重点,怎么能从更低成本从某一领域迁移到另一个领域,比如从汽车领域迁移到手机领域,或者从手机领域迁移到房地产领域等等。另外,还有自监督去训练超大规模的模型,比如像bert、roberta还有最近GPT3等等,这也是未来的趋势,然后再考虑如何将知识图谱加入到大模型当中进行知识增强来提升模型理解的效果。还有就是多模态这部分,怎么把图像、文本或者语音这些信息辅助来提升模型的效果。因为人在学习的时候不仅参考了文本的信息,还有视觉方面的信息等等。现在对于多模态情感分析我们也有一些工作正在做,比如说从视频中分析出一个人的情感,既考虑人脸的图像信息,也考虑他语音的一些信息,比如语气等等。今天的分享就到这里,谢谢大家。嘉宾介绍:李明磊,华为云NLP算法专家,博士毕业于香港理工大学,从事文本情感分析和情绪识别的研究,在TAC、ACL、EMNLP等发表论文多篇,获得IALP 2016 最佳论文奖,KSEM2017最佳学生论文奖。目前就职于华为云语音语义创新Lab,主要负责华为云文本分析、多模态分析等业务,所孵化服务已在多个实际业务场景中落地。团队DigScience2019,CCF BDCI 2019, WSDM Cup 2020比赛金牌。文章来源:https://mp.weixin.qq.com/s/yeiODUxkTpvi2AsghjbeeQ
  • [热门活动] 最新编程语言排行榜出炉!华为专家邀你一起学编程!
    新年将至,正是重新再出发的好时候。如果要学一门新的编程语言,该从哪个开始入手呢?不如来看下编程语言风向标:2021年最佳编程语言排行榜!近日,IEEE Spectrum发布的2021年度编程语言排行榜,与2020年排行榜相比,Python、Java、C、C++ 和JavaScript 依然占据 2021 排行榜的前 5 名。而在TIOBE编程语言社区发布的12月编程语言排行榜中,Python、C、Java、C++、C#也名列排行榜前5名,都展示出非常火热的发展势头。*图片来源于IEEE Spectrum、TIOBE编程语言没有好坏之分,重点在于应用。各技术社区编程语言排行榜,是编程语言流行趋势的一个指标,可以帮助程序员更好的了解自己所学的编程语言在市场中的竞争力。对于新入门及需要掌握多门编程语言的程序员来说,了解当下编程语言的热门程度是非常有必要的。免费精品课程推荐接下来给大家介绍一下排行前列且较稳定,最值得程序员学习的几个开发语言,同时给大家推荐一些适合自学的免费精品课程。稳居榜首的PythonPython是时下最为流行的编程语言之一,在诸多领域都有着广泛的应用;其优雅的语法、简单的规则让程序员在更短的时间内实现更多的功能。众所周知的JavaJava是目前使用最为广泛的网络编程语言之一,具有易学好用的特点,基于对象的编程更符合人的思维模式,使人们更容易编写程序;与平台无关是 Java 语言最大的优势。经久不衰的C语言当今主流编程语言中,C语言的历史最为悠远且经久不衰,在程序语言发展史上具有重要地位。C语言偏向于底层硬件交互,多用于系统软件开发,设备驱动开发以及嵌入式开发。其中著名的UNIX操作系统就是由C语言所开发。主导性非常强的C++C++是一门被广泛使用的现代编程语言,在兼顾性能和灵活的原则下拥有大量特性,它非常灵活,功能也非常强大,是可以在保证功能的前提下性能最高的语言之一。因互联网而生的JavaScriptJavaScript是一种在网络浏览器上运行的变成语言,这种语言我们称之为脚本语言。它因互联网而生,紧跟浏览器的发展而发展。开发语言大讲堂华为云培训中心官方推出Python,Java,C,C++,Rust,JavaScript等免费精品课程。非常适合打算自学编程语言,或者仅有部分闲暇时间学习编程语言的学员。由华为云专家精心打造课程配合“课程+测评+实战+认证”四步帮助你0基础从入门到精通通过自主“学测练考”不仅能让你对开发语言有整体概念还可以帮助你培养编程思维!此外,通过学习,还可获取华为云官方认证证书,赢取富士INSTAX 一次成像相机、京东3D颈肩按 摩披肩、无线榨汁机、充电宝、帆布包、无线鼠标等1000+好礼!扫描下方二维码了解详情活动日期:即日起截至3月27日课程免费、实验免费奖品有限,发完即止还等什么,马上占位吧!
  • [行业前沿] 2021赋能中国区块链创新人物榜揭晓,华为云区块链两位专家上榜!
    2021年12月10日~11日,由教育部中国教育发展战略学会、科技部科技人才交流开发服务中心指导,全国高校人工智能与大数据创新联盟主办的“2021第四届全国高校人工智能大数据区块链创新论坛”在北京顺利召开。会上,公布了 “区块链60人”2021赋能中国区块链创新人物获奖人员名单。2021年8月~11月,由全国高校人工智能与大数据创新联盟区块链专委会发起的“区块链60人”2021赋能中国区块链创新人物评选活动完美收官。本次活动历时两个月,通过个人申报,单位推荐、媒体报道、第三方推荐、专家评选等环节,坚持“公开、公平、公正”评选原则,最终推出2021年度“区块链60人”榜单,此次评选活动,旨在记录成长、分享经验、引领创新。为在全国普及区块链知识、传播区块链技术与应用奠定基础,也是积极落实国家区块链战略的具体行动之一。本次活动评选范围覆盖面广,福射性强,空间跨度大。同时,活动组委会将对在区块链产业具有创新理论、创新思想、创新产品技术应用的先进人物进行宣传表彰。华为云区块链的曹朝、曲强两位专家上榜!本文参考自区块链60人获奖人员名单及获奖理由 2021赋能中国区块链创新人物榜揭晓 原创 联盟 高校大数据与人工智能推进联盟
  • [行业资讯] 数智化时代的“攻”与“守”丨2021(第十八届)中国物联网产业大会圆满落幕!
    021年正值“十四五规划”开局元年,同时也是企业“数智化变革”的分水岭之年。“新型基础设施”爆发,“碳中和”概念日渐火热,过去的一年物联网行业发展跌宕起伏,上游缺芯国产替代正当时、数据安全治理一触即发、AI赋能千行百业万亿市场开打……在科技创新的星辰大海中,众多物联网企业涌现“数智化”赛道,产业格局重构下释放哪些变革信号?12月8日,由慧聪物联网、慧聪电子网主办的2021(第十八届)中国物联网产业大会暨品牌盛会,在深圳盛大召开。大会以“物联芯生,数智世界”为主题,齐聚“海大宇华”同台论道,500+企业高层、权威专家、工程商、集成商等于一堂,共同探讨数智化时代转型过程中的“攻”与“守”。品牌盛会至今已举办18届,延续往届大会的高层次、高权威与高人气规模,今年大会再度聚集各界精英领袖、专家学者,呈现强大的嘉宾阵容:欧洲科学院荣誉院士,深圳市安全防范行业协会党委书记、会长杨金才;广东省公共安全技术防范协会秘书长李萍;广东省物联网协会秘书长曾明;深圳市电子商会秘书长徐慧英;深圳市半导体行业协会秘书长常军锋;高级工程师,慧聪物联网顾问,北安协专家向良璧;杭州海康威视数字技术股份有限公司研发中心门禁对讲产品线总监蔡焕平;浙江大华技术股份有限公司研发中心商显产品线总经理潘霄凌;浙江宇视科技有限公司显控事业部技术总监雷涛 ;华为技术有限公司机器视觉副总裁刘俊梅;深圳市晶科鑫实业有限公司董事长孙刚;广州高新兴机器人有限公司市场部总监王振勇;中星微技术股份有限公司华南区总经理 张黎明;深圳达实物联网技术有限公司市场总监黄志勇;北京汉邦高科安防科技有限公司总经理罗桂华;慧聪物联网、慧聪电子网总经理余素玉。本届品牌盛会由“研报首发、主题演讲、圆桌论坛、颁奖盛典、高端访谈、品牌展台、星光红毯秀、财富晚宴”等8大环节组成,致力于站在科技创新的浪潮上,回望过去一年产业的发展成果。大会聚焦AI安防、物联网、智慧城市、数据智理、上游缺芯等热点话题,全力打造2021年度中国物联网产业年度盛事。以下为本次大会的精彩回顾:1《2021安防行业市场研究报告》发布权威专家深度解读《2021安防行业市场研究报告》由慧聪物联网顾问向良璧老师撰写,以2020年中国安防上市企业年报为切入点,通过全面剖析市场发展数据,深度分析典型企业的业务战略改变,对行业做出总结及展望。报告指出:2020年中国安防行业供应端市场规模达到5860亿元,与2019年相比增长0.48%。其中安防产品市场约为2432亿元,增长0.91%;安防工程市场为4006亿(包含重复计算的安防产品921亿),增长0.125%;安防运维与报警服务市场为342亿,下降0.29%。 向良璧老师总结认为,作为十三五规划的收官之年的2020年,受到疫情影响,安防市场无论是收入增长还是利润增长均为近年来最差的一年。但由于去年基数较低,2021年多数安防行业企业的经营情况都有一定好转,全行业收入增长将恢复到略好于2019年的水平。2行业巨头“同台论道”捕捉数智化产业新风口大会伊始,欧洲科学院荣誉院士,深圳市安全防范行业协会党委书记、会长杨金才做开场致词。杨金才提到,物联网是众多领域实现数智化转型的重要驱动力,中国物联网产业大会作为行业最具权威性和影响力的年度盛会之一,对推动产业持续性发展有非常重要的意义。大会聚焦的数据智理、智慧城市、上游缺芯等热点话题,充分展现产业格局重构下,各标杆企业的战略转型及应对之道,对行业部分中小企业有很好的借鉴作用。各界专家学者、精英领袖的深入报告和细致演讲,也将助力行业提前看到未知之势,获得长线发展。
  • [行业资讯] 物联网高级研修班在南沙举办|院士专家齐授课,人社部和中科院双重认证权威证书
    11月29日至12月3日,人社部“新基建时代物联网产业前沿技术与应用”高级研修班在广州南沙顺利举办。研修班由中国人力资源和社会保障部资助,中国科学院人事局支持,中国科学院计算机网络信息中心主办,广州物联网研究院承办,广东省物联网协会、广州南沙资讯科技园有限公司协办。本次研修班围绕5G、大数据、人工智能、区块链等新一代信息技术与物联网融合发展等领域,邀请了中国工程院院士邬贺铨等15位业界专家学者联合授课。来自中科院、广东省物联网协会等研究机构、行业企业的近100位学员参加培训,通过结业考核后将获得人社部认证的培训证书。
  • [热门活动] 精彩回顾 | NDBC 2021华为参会回顾
    2021年12月3日至5日,为期三天的第38届CCF中国数据库学术会议(NDBC2021)在美丽的春城昆明市圆满召开。华为携手数据库领域专家亮相大会,为广大与会者带来深度分享,主要包括CCF-华为数据库创新研究计划论坛、数据库产业论坛、数据库系统人才培养论坛等。共计十二位数据库领域专家从数据库领域所面临的新挑战、新技术、新问题和新方向等不同维度带来技术分享,向参会者深度介绍数据库前沿科技及未来人才培养。共商数据库领域学术、产业未来发展之路!CCF-华为数据库创新研究计划论坛12月4日下午13:30,CCF-华为数据库创新研究计划论坛在昆明云南都会酒店云安会堂301正式开启。现场与会者包括来自国内学术界及产业界的在内约100余人。华为数据库专家温泉、东北大学教授谷峪、西安交通大学教授王平辉、西北工业大学副教授刘海龙、上海交通大学教授高晓沨、华东师范大学教授张蓉、华中科技大学副教授丁晓峰、北京理工大学教授张志威、中科院计算所研究员陈世敏相继发表精彩演讲,分享了数据库未来发展趋势、GPU加速的混合负载内存数据库关键技术等数据库技术创新及行业发展的主题报告。现在让我们一睹九位业界专家的风采。华为数据库专家温泉带来报告《数据库未来发展趋势》。温老师围绕云计算给数据库带来的变化这个主题,向与会者介绍相关产业变化、技术趋势等,为后续数据库产业策略和技术方向确定提供规划和支撑。东北大学谷峪教授带来报告《GPU加速的混合负载内存数据库关键技术》。谷老师分享了在分析现有工作的基础上,将对包括跨负载的混合存储、压缩、索引,高维数据和迭代式分析任务的支持,CPU/GPU协同的复杂分析和事务管理,动态负载感知的细粒度资源调度等研究内容进行探讨。并通过集成以上关键技术,将设计一个TP/AP混合负载数据库,最大限度地提高查询分析数据的新鲜度,同时保证资源和数据的隔离性。西安交通大学王平辉教授带来报告《面向海量图数据的相似性快速检索技术研究》。王老师向在座嘉宾介绍了传统的图相似检索方法以及基于深度学习的图相似性检索方法,阐述了现有优势及不足,以及初步探索及未来的研究计划。西北工业大学刘海龙副教授线上带来报告《云原生数据库资源规划与调度技术》。刘老师通过探讨云原生数据库面临的挑战及资源规划与调度的需求,分析云原生数据库资源规划与调度需要研究的问题,并提出具体研究计划及研究思路。上海交通大学博士生导师高晓沨教授线上带来报告《校企合作项目经验分享》。高老师介绍了校企合作项目的研发过程与注意事项,对希望开展校企合作的年轻老师给与了借鉴及参考。华东师范大学博士生导师张蓉教授线上带来报告《面向应用的数据库系统评测》。张老师表示,在新型应用和新硬件驱动下,先后出现了众多新型数据库系统。已有的评测基准,已无法满足新的场景下数据库系统的评测。并通过本报告介绍了新型的应用环境和层出不穷的数据库系统决定需要研究、开发具有场景仿真能力的数据库评测技术。华中科技大学博士生导师丁晓峰副教授带来报告《基于openGauss的密态数据管理与安全防护关键技术研究》。丁老师分享了针对openGauss数据库中数据安全及隐私等问题,研究基于密态数据可验证查询和数据安全防护技术,在保护数据隐私和数据安全的前提下,解决数据查询和数据可信的问题,实现数据的安全共享和价值变现。北京理工大学博士生导师张志威教授带来主题报告《基于openGauss的海量防篡改数据管理系统研究与实现》。张老师从可验证数据结构、事务处理以及可验证查询三个方面,介绍可验证数据库的研究进展以及其相关工作。中科院计算所研究员,美国卡内基梅隆大学陈世敏博士带来主题分享《基于模型压缩的物联网时序数据库技术研究》。陈老师分享了其在比较多种现有压缩方法的基础上,提出的一种新思路。即通过预测模型和异常点存储相结合,希望可以达到接近基于模型的有损压缩算法的压缩比,同时支持很高的准确性、不解压的分析、和通用的分析任务。温馨提示:Gauss松鼠会已将各位嘉宾的议题报告剪辑成单独视频,并归档在B站直播间,欢迎大家扫描二维码观看。数据库领域学术专家、与会者合影留念数据库产业论坛2月4日下午14:00,数据库产业论坛在昆明云南都会酒店云安会堂204顺利开展。来自华为云数据库创新Lab技术专家黄飞腾带来了《GeminiDB时空多模数据管理平台》主题报告。黄老师介绍了如何分析、挖掘海量数据中的有价值的信息,并向在座与会者介绍了华为云在时空多模数据管理及分析方面所作的一些工作。                                                                                      华为云数据库创新Lab技术专家 黄飞腾华为计算产品线openGauss数据库产品总经理胡正策带来了《打造根技术 共建根社区 发展新生态》主题报告。胡总表示openGauss围绕数据库根技术持续创新,为业界带来持续领先的数据库技术与产品,把企业级数据库能力带给千行百业,助力客户数字化转型,共促产业发展和生态繁荣。                                                        华为计算产品线openGauss数据库产品总经理 胡正策 数据库系统人才培养论坛2月5日下午15:20,数据库系统人才培养论坛在昆明云南都会酒店云安会堂206顺利开展。来自华为公司数据库资深技术专家、华为数据库创始团队成员之一的李思昊为大家带来了《国产化和信创浪潮驱动下市场对数据库人才建设的新诉求》主题报告。李老师表示数据库作为软件皇冠上的明珠,内有严谨的数学理论基础,外有复杂多样的软硬件架构,这对未来想从事数据库产学研的同学提出了重大挑战。并且结合华为数据库的研究历史与华为人才模型,给同学们分享如何培养自己的技术和学术素质,相信同学们一定受益匪浅。NDBC 2021系统演示12月4日,openGauss布道师薛忠斌在NDBC 2021上向与会者演示openGauss高性能特性,并介绍了当前在4路TaiShan服务器下性能高达230W+tpmc。参会者对openGauss数据库有了更进一步的认识。华为展台在大会期间,华为作为赞助商在现场设置了展位,吸引了不少参会者的关注。现场数据库爱好者、高校师生们在了解openGauss数据库的同时纷纷加入了Gauss松鼠会技术交流圈。 Gauss松鼠会作为华为公司此次参加NDBC大会的协作机构,全程投入到华为参会的支撑工作中。同时,通过此次大会,Gauss松鼠会吸引了约百位数据库领域精英的关注或加入。 Gauss松鼠会由华为公司发起,联合云和恩墨、海量数据及众多高校及志愿者共同运营,致力于通过技术圈的方式汇聚数据库爱好者和关注者,像松鼠一样剥开科学技术的坚果并科普大众,培养数据库人才,打造中国数据库人才培养的黄埔军校,为国产数据库的发展贡献力量。欢迎关注、加入Gauss松鼠会!
总条数:488 到第
上滑加载中