大数据_标签_开发者

博客(9.9k)
视频(24)
论坛(0)
云声(0)
代码示例(0)

[技术干货] 【转载】【大数据上云】如何迁移MRS Kafka集群的master节点ZK实例到core节点

【转载华为云社区】如何迁移MRS Kafka集群的master节点ZK实例到core节点1.1 背景1. MRS的kafka集群部署依赖zk，zk集群默认是部署3个节点，其中两个节点在master上，1个节点会随机选择一个core节点，部署方式如下：说明：master节点的zk，数据存储在了数据盘，core节点的zk数据存储在了系统盘 2. 在默认情况下，如果客户选择了BMS规格资源，core节点是裸金属服务器，master节点选择了c6的虚机规格，那么会存在两个zk节点的数据存储在EVS的高I/O盘上。3. 这样的部署会导致两个zk使用的是虚机EVS，走了虚拟共享存储网络，但是由于虚拟存储网络存在IOPS的冲高和带宽争抢等问题，相对物理网络，稳定性相对较低，会影响zk服务的长期稳定性。1.2 优化措施针对现有的kafka集群，将master节点的zk实例迁移到core节点，所有zk节点均部署在物理机上，保证zk数据的访问和操作都走物理网络，增强集群稳定性。如下：1.3 操作指导1.3.1 先放开实例添加能力1) 登录到主master节点，在manager页面的主机列表显示实心星星的节点： 2) 登录到主master节点后台执行如下命令：vi /opt/Bigdata/apache-tomcat-7.0.78/webapps/web/WEB-INF/classes/config/web_security.propertiessu ommsh /opt/Bigdata/om-0.0.1/sbin/restart-oms.sh1.3.2 重启恢复后，登录MRS manager界面，在core节点添加zk实例注意：添加实例后，会出现原有的实例配置过期，先不重启1.3.3 删除原有master实例1.3.4 需要重启所有ZooKeeper，刷新配置1.3.5 滚动重启broker实例，刷新配置：1.3.6 集群最后状态，服务全部正常，无告警：1.4 测试验证根据指导操作后，测试验证新部署的节点上zk的数据可以正常写入，且所有上层业务均正常。1.5 约束说明1）操作过程会重启zookeeper和broker服务，可能会导致存在短时间的服务中断，业务影响，需要与业务方一起评估。2）如果业务方有直接访问zk，需要更新客户端的zk的ip地址信息，影响需要与业务方一起评估。

泽宇-Li 发表于2020-06-28 07:59:54 2020-06-28 07:59:54 最后回复 lte网络工程师 2020-07-31 14:12:00
2261 1

Kafka 大数据 MapReduce
[技术干货] 每日分享：Spark shuffle介绍：概述

原文地址：https://bbs.huaweicloud.com/blogs/176324在基于mapreduce思想的计算模型里，Shuffle是map和reduce的纽带。计算框架对大数据分而治之，对处理数据进行分块并行处理，当需要对分块数据做聚合处理时，多个分块的数据在map阶段转为k-v结构，然后按key分区，在reduce阶段对各自分区的数据进行计算归并。map和reduce中间对数据做分区并规整的过程，就是shuffle的过程。在spark中，对shuffle也从RDD的角度进行了定义。spark core的作业就是rdd的一系列转换，从aRDD转为bRDD，RDD之间有宽依赖和窄依赖，对于存在宽依赖的2个RDD之间，就会存在shuffle。窄依赖：父RDD的每个分区数据都只被RDD的一个分区使用宽依赖：父RDD的每个分区数据都被子RDD的多个分区使用在hadoop、spark这类批处理的计算框架中，考虑到容错，shuffle过程的数据都是序列化到了磁盘。map做shuffle write，reduce做shuffle read。这个过程涉及了CPU对数据序列化及各种内存拷贝、内存对数据做分区排序、磁盘对shuffle数据存储读取、以及网络远程fetch，是计算过程中的资源消耗大户，也是最大的瓶颈。下面以wordcount为例子，概要描述下作业shuffle过程，目标为统计输入文件里每个单词的数量。比如有2个文本文件，文件1内容为： abc def 文件2内容为：abc ghi。期望结果为：abc 2；def 1；ghi 1（abc有2个，def有1个，ghi有1个）整个数据流如下：1、作业运行时首先启2个task，分别读取文件1和文件2，每个task将自己读到文件内容split为单词2、每个task将读到的单词，转为key-value结构，即word-数量的结构3、每个task将key-value数据按key做分区，假设目标分区为3个，3个单词abc、def、ghi分别分到3个分区，并各自shuffle write为对应的文件4、启动3个reduce任务，每个reduce任务读取对应分区的数据5、每个reduce任务对相同的单词合并，数量合计6、每个reduce任务的结果合并到driver输出结果为了并行处理数据，需要启动多个task进行文件的读取和split。但count是对全部的单词做count，每个task里只包含了某1个文件的单词，这种就需要shuffle，把相同的单词先分到同一个分区里，再分别对每个分区做count，即可得到最终结果。这个简单的例子帮到你理解为什么需要shuffle了么。

Lettle whale 发表于2020-06-23 15:40:34 2020-06-23 15:40:34 最后回复 kududu 2020-07-04 15:17:01
5353 29

spark 大数据
【重要】第三届全国高校绿色计算系列大赛报名链接报名已开始，赶快报名喔

为推动我国信息技术产业开放创新生态环境建设，加速鲲鹏等计算架构的产业生态系统构建，大力培养实践能力强、创新能力强、具备国际竞争力的信息技术领域高素质人才，中国计算机学会软件工程专委会、中国计算机学会系统软件专委会、全国高等学校计算机教育研究会、信息技术新工科产学研联盟、绿色计算产业联盟等共同研究，决定举办第三届全国高校绿色计算创新大赛。报名入口: https://www.educoder.net/competitions/gcc-task-2020一、参赛说明本次大赛面向中国高校全体师生，包括本科院校、高职院校的在职教师和在册学生。大赛分为四个组别：任务挑战组、代码标注组、开源创新组、实践教学组。任务挑战组本竞赛主要考察参赛团队在问题分析、数据处理、算法设计、功能实现，特别是基于昇腾的AI计算平台解决实际应用问题、从X86架构迁移到鲲鹏架构的工程实践能力，积累的开发和人才数据将在脱敏后提供给学术机构和相关企业，实现产教共赢。1.参赛方式：小组赛，各参赛小组由1名指导教师和若干名学生组成（每组学生人数不超过5人）。2.参赛任务：在给定时间内完成指定任务的开发、优化或代码补全，任务类型包括基础算法、综合应用、数据分析等，以在线编程形式完成；组内成员分别独立参赛，指导老师可以对组内成员给以指导。3.评分标准：对于每项开发任务，在有效时间内通过测试即得分，得分相同则耗时短者获胜；各组成员分别计成绩，组内成员的最好成绩代表本组成绩。4.大赛论坛：选手可以通过鲲鹏论坛，昇腾论坛以及相应的大赛答疑专区获取鲲鹏、昇腾相关专业知识和在线答疑。鲲鹏论坛：https://bbs.huaweicloud.com/forum/forum-923-1.html大赛鲲鹏答疑专区：https://bbs.huaweicloud.com/forum/forum-1105-1.html昇腾论坛：https://bbs.huaweicloud.com/forum/forum-726-1.html大赛昇腾答疑专区：https://bbs.huaweicloud.com/forum/forum-1106-1.html二、竞赛时间拟定于2020年6月15日-2020年11月30日完成所有赛项活动。比赛阶段时间大赛报名2020年6月15日－2020年8月10日赛前培训2020年6月20日－2020年8月10日颁奖时间2020年11月下旬（具体另行通知）奖金和证书2020年11月下旬（具体另行通知）比赛阶段时间预赛（线上赛）2020年8月15日10:00－17:00半决赛（线上赛）2020年9月5日10:00－17:00决赛（线上赛）2020年10月17日10:00－17:00三、奖项设置本次大赛将评选出全国特等奖、一等奖、二等奖、三等奖，并颁发获奖证书和奖金。奖项数量奖励特等奖2组每组奖金25000 RMB颁发团体证书、个人证书、指导教师证书一等奖10组每组奖金5000 RMB颁发团体证书、个人证书、指导教师证书二等奖20组每组奖金2000 RMB颁发团体证书、个人证书、指导教师证书三等奖排名前 10%的参赛小组颁发团体证书、个人证书、指导教师证书额外权益： ①所有参赛选手将免费获得赛前培训、华为HCIA认证、华为云微认证权益，认证通过者可获得比赛加分（详见参赛指南）； ②大赛获奖者有机会成为华为鲲鹏论坛、昇腾论坛各版本外部版主，共同参与版块的日常维护和技术运营，每月最高可得2000元等值激励； ③在大赛中获奖且表现优秀的选手，可获得华为免简历筛选、优先安排机考和技术面试的机会。注意：1、组委会规定每个参赛单位在各赛组中的特等奖和一等奖均不超过1个名额。 2、对参赛过程中的任何作弊行为，组委会将取消相关参赛队伍的参赛资格。 3、获奖选手的最终奖金将由组委会代扣代缴个人所得税。四、组织机构组织机构单位名称指导单位全国高等学校计算机教育研究会中国计算机学会软件工程专业委员会中国计算机学会系统软件专业委员会中国开源软件推进联盟信息技术新工科产学研联盟主办单位绿色计算产业联盟承办单位华北区：清华大学、北京大学、北京航空航天大学西北区：西安交通大学、西北工业大学、兰州大学东北区：哈尔滨工程大学、大连理工大学华东区：南京大学、复旦大学、上海交通大学华中区：国防科技大学、武汉大学、湖南大学华南区：中山大学、海南大学西南区：四川大学、西南大学、重庆大学企业：华为技术有限公司、湖南智擎科技有限公司竞赛指导委员会：主任：梅宏（中国科学院院士，中国计算机学会理事长、绿色计算产业联盟理事长）副主任：王志英（国防科技大学，全国高等学校计算机教育研究会理事长）武永卫（清华大学，教育部高等学校计算机类专业教学指导委员会秘书长）陈志刚（中南大学，教育部高等学校软件工程专业教学指导委员会秘书长）金芝（北京大学，中国计算机学会系统软件专委会主任）李宣东（南京大学，中国计算机学会软件工程专委会主任）肖然（绿色计算产业联盟副理事长）竞赛组织委员会：主任：毛晓光（国防科技大学，教育部高等学校计算机类专业教学指导委员会副秘书长）副主任：刘志宏（中国电子技术标准化研究院，绿色计算产业联盟秘书长）李戈（北京大学，中国计算机学会软件工程专委会秘书长）卜磊（南京大学，中国计算机学会系统软件专委会秘书长）秘书长：尹刚（绿色计算产业联盟技术委员会副主任，新工科联盟/CMOOC联盟实践教学工委会副主任）翁志强（绿色计算产业联盟副秘书长）委员：周明辉（北京大学）魏峻（中国科学院大学）白晓颖（军事科学院）毛新军（国防科技大学）陈鑫（南京大学）陆枫（华中科技大学）罗娟（湖南大学）汪凯（华为技术有限公司）钟将（重庆大学）张锦（湖南师范大学）姚爱红（哈尔滨工程大学）刘均（西安交通大学）燕昊（兰州大学）江贺（大连理工大学）邓明森（贵州财经大学）陈渝（清华大学）管海兵（上海交通大学）彭鑫（复旦大学）欧阳建权（湘潭大学）李俐（北京工业大学）万海（中山大学）崔良中（海军工程大学）郭乐江（空军预警学院）程杰仁（海南大学）伍胜（西南大学）万亚平（南华大学）成奋华（湖南科技职业技术学院）曾文权（广东科技职业技术学院）黄新（深圳职业技术学院）孙琳（武汉软件工程职业学院）

阿奇@汪汪队 发表于2020-06-17 09:56:42 2020-06-17 09:56:42 最后回复五湖四海@银河护卫队 2020-06-20 11:55:56
7676 4

HTTP 大赛大数据
[技术干货] 华为杨瑞凯：城市上云是大势所趋

在「2018 华为·济宁云产业合作高峰论坛」上，华为山东（济宁）大数据中心正式上线运营。该项目是华为全球云服务网络在全国部署的众多节点之一，一期占地 2.4 万平方米，配备了 1064 台云机柜、可提供 700P 云存储的服务能力。机房建设采用 T3+ 数据中心标准，PUE 达到 1.4，全年运行因故障中断的时间少于 1.5 个小时。必由之路无论是大数据、区块链还是人工智能，云是一切数字化应用的基础。对于处于数字化转型中的地方政府而言，云计算是新型智慧城市建设的核心基础设施，全面上云是实现「善政、兴业、惠民」的服务型政府的必由之路。华为公司政企云总裁、数字政府业务部总裁杨瑞凯表示，城市产业云汇集城市政务、民生、产业的数据和应用，打通数据壁垒，构建数据开放共享，这样能大幅提升行政效率，政府办公透明化，也就是大家常说的「让数据多跑路，群众少跑腿」，「办事只进一次门」等等，真正实现「善政、兴业、惠民」。他说：「随着城镇化进程的加速，交通拥堵和环境恶化等问题越来越突出，科学治理、转型升级和可持续发展是摆在城市管理者非常现实的问题。而从另一方面来看，新一代信息技术迅勐发展，ICT 已经从一个垂直行业变为水平行业成为众多垂直行业的支撑产业。所以，城市管理者应当顺应大势，积极而又严肃地研究、分析和利用最新的信息技术，以此作为杠杆来撬动城市的可持续发展和转型升级。作为最重要的信息基础设施，城市上云是必选项，这是整体的大方向。城市当结合自身的经济、资源、社会等实际以及当前需求和发展愿景来来选择上云路径，可以多个产业全面上云，也可以先选择一个产业进行突破，做到极致，做成样板，再带动其他产业上云。」济宁样板作为国内城市产业云服务的领导者，华为已在北京、天津、重庆、青岛、广州等建立了 90 余个城市云计算大数据中心，构建了一张覆盖全国的城市云服务网络，助力百余个地方政府实现善政、兴业、惠民的诉求。以济宁市为例，自华为山东（济宁）大数据中心项目落户以来，陆续开始承接济宁市直部门的云业务，包括统计、规划、国土、卫生、交通、公安等市直部门已达到 36 家。前期试运营阶段，中心还在济宁扩展县区政府及各企业的新增数据存储，积极争取市外及省、国家各级大数据云计算业务，逐步建立起涵盖统计、煤炭、食品药品、规划、市政建设、交通、制造等方面的国家级大数据中心。更为重要的是，除了积极扩展云业务，华为山东（济宁）大数据中心自落户济宁高新区以来，就有数家华为的生态合作伙伴企业向高新区抛出了橄榄枝，极大地促进了济宁本土信息产业的发展，为济宁市整个城市经济的转型升级奠定非常有力的基础。世界级的技术，先进的理念，深厚的沉淀，良好的口碑，这些都是地方政府选择华为城市产业云的重要原因。但是，还有一点是地方政府尤为看重的，就像在济宁一样，华为不仅帮他们将政务搬上云端，实现政务数据共享和业务协同，还能协助他们以云服务作为推动城市产业发展的重要契机和抓手，大力引入新兴产业，助力地方实现产业升级转型，实现城市跨越式发展，这才是关键和重点。转载自：《中国信息化》

追梦小柠檬 发表于2020-06-11 22:48:01 2020-06-11 22:48:01 最后回复追梦小柠檬 2020-06-11 22:48:01
2243 0

边缘数据中心管理 EDCM 大数据
[热门活动] 【请阅】华为云数据库服务五月月报~~

本月数据库内容发布主要聚焦以下四个方面：产品功能特性——华为云DRS服务异地多活灾备、华为云PostgreSQL 12商用发布。技术百科系列——主要发布华为云DAS服务空间&元数据分析特性、华为云DDS服务自动备份与恢复，以及发布1篇MongoDB数据库经典故障问题《sharding集群执行sh.stopBalancer()命令被卡住怎么办？》漫画长图。品牌宣传——华为云PostgreSQL 12正式商用直播；第二届华为云数据库挑战赛报名宣传。促销活动——年中云钜惠·云数据库专场活动，新人1年享3折，爆款产品1年享4.5折，迁移上云加赠6个月使用时长，数据库安全防护区，包年低至3折，活动时间：2020年6月8日至6月30日。【产品动态】=========u数据库“意外失联”？华为云DRS异地多活灾备为您支招为保护数据库，华为云RDS很早便推出了双AZ高可用灾备方案，即“同城两中心”，但为了更好地提供灾备保护，华为云数据库在其基础上提出了异地保护的方案，即由华为云DRS服务推出的异地多活灾备。u全新增强4大特性，华为云PostgreSQL 12 正式商用PostgreSQL是世界上备受欢迎的一款典型开源关系型数据库，在保证数据可靠性和完整性方面尤为出色。为了给用户提供更稳定可靠的服务，华为云数据库团队经过精心研发，正式推出了RDS for PostgreSQL 12 版本，并于日前开始商用。【品牌资讯】=========u<直播>看直播享好礼，华为云PostgreSQL 12 “酷炫”特性抢先知华为云PostgreSQL 12 正式商用啦！想要了解华为云PG12有什么最新升级么？华为云特邀专家Willie直播详解PG12首发酷炫特性~u<挑战赛>邀请有礼再度升级！华为云数据库挑战赛玩出新高度2020年华为云数据库挑战赛火热报名中，无论你是数据库从业者、高校学生，亦或是纯粹的数据库爱好者，只要你来，我们通通欢迎。我们还准备了丰厚奖金、精美拉新礼品、优质offer推荐，全部虚位以待，优质福利享不停。u<挑战赛>要参赛吗？熬夜写代码那种集结好友赢奖品，华为云数据库挑战赛喊你组团参赛啦！邀请身边亲朋好友，共同组建一支超强战队，丰厚奖金和拉新礼品等您带回家。【技术小百科】===========uMongoDB经典故障系列五| sharding集群执行sh.stopBalancer()命令时被卡住怎么办？了解更多u技术小百科|数据管理服务DAS系列六：空间和元数据分析了解更多u技术小百科 |【云小课】灵活备份与恢复，华为云DDS服务助您数据丢失有保障了解更多【优惠活动】=========u年中云钜惠·云数据库专场活动活动时间：6月8日至6月30日活动链接：https://activity.huaweicloud.com/dbs_Promotion/index.html1. 新用户1年享3折——仅限新老用户，每用户限购1台。2. 爆款产品4.5折起——不限新老用户，每用户限购10台。3. 迁移上云，加赠6个月使用时长——购买以下规格，免费使用数据复制服务DRS，迁移成功后加赠6个月。4.数据库安全防护区，包年低至3折——MySQL数据库1年3折，数据库审计服务包月7折。更多数据库资讯详情，请前往华为云数据库开发者专区：https://developer.huaweicloud.com/resource/db.html了解数据库最新动态，请扫码关注【HW云数据库】微信公众号

平常心 发表于2020-06-10 11:37:44 2020-06-10 11:37:44 最后回复平常心 2020-06-10 11:37:44
3602 0

数据库云数据库 MySQL 大数据
[技术干货] 【转载】用技术布道：华为云背后的“智囊团”们

华为云有一支“神秘之师”，所有成员均是来自业界管理、销售、市场、技术等各个领域的精英。它是华为云重要的“外脑”之一，为华为云的发展出谋划策；它也是华为云的“宣传队”，让更多的行业客户和合作伙伴可以更深入地了解华为云；它还是华为云的“先遣队”，可以优先体验华为云的产品和解决方案，并与各行各业的用户分享体验和实践经验。他们就是华为云MVP（Most Valuable Professional），即华为云最有价值专家。能够享有华为云MVP头衔的人都不简单，要么是行业意见领袖、技术专业人士，要么是在业界具有一定影响力和特殊贡献的专家。他们专注于帮助他人了解和使用华为云的技术、产品及解决方案，并代表用户优化产品体验，增进华为云与用户之间的相互了解。在没有实际接触前，想象中的华为云MVP应该是治学严谨、表情严肃的老专家，或者是有三头六臂、手眼通天的重量级大咖，反正是有一种距离感，高高在上。但实际上，除了确实是各自领域的专家以外，华为云MVP是奋战在一线的管理、销售和技术人员，风华正茂，富有朝气和闯劲，而且极具个性：有的善于写作，透着文艺青年范儿；有的语言表达颇具感染力，像是个演说家……听他们讲讲企业上云的酸甜苦辣，再聊一聊华为云的创新与实践，有茅塞顿开之感，意犹未尽。Part 1:与华为云一起修炼贵州开拓未来计算机有限公司（以下简称“贵州开拓未来”）CTO宋雷，华为云MVP，未见其人，先见其文。作为今日头条的认证作家，宋雷在平时的工作中只要有空闲时间、有灵感，就会写作，至今已在华为云博客上发表了18篇技术文章。宋雷是华为云名副其实的技术布道师。在华为云组织的相关活动中，宋雷分享了许多专业技术经验和使用华为云的实践经验，而他的笔正是最有效的传播工具。贵州开拓未来CTO 宋雷宋雷口中的小公司——贵州开拓未来虽然只有100多人，却随着大数据浪潮的到来快速崛起，专业从事房地产领域大数据信息化平台的研发、运营和大数据分析，拥有自主可控的大数据技术和成熟的服务产品，开发人员的比例高达70%，是贵州省最大的房产信息化系统建设公司。在房产信息化行业向数字化转型的过程中，贵州开拓未来扮演着助力者和推动者的角色。作为企业的CTO，宋雷并不满足于做一名单纯的战术领导者，而是要在公司的技术战略层面做出规划和设计，同时还要兼顾管理战术层面的一些细节。宋雷表示：“作为CTO，我会更加关注前沿技术的发展，比如人工智能、云计算和大数据等技术，并且会结合企业的自身情况，引入合适的技术，在公司进行落地，更好地推动公司业务的创新与发展。”在工作中，宋雷经常会使用华为软件开发云观察公司产品的研发进度，公司的版本管理服务器、开发服务器、测试服务器都构建在华为云服务器之上。对于贵州开拓未来而言，云服务是大数据应用的基础设施，不管是大数据的存储、分析甚至是采集，都可以在云的基础上完成。云计算极大地节省了企业的研发成本，以及系统采购成本和运维成本。华为云的稳定性、安全性以及经济性，完全可以满足贵州开拓未来的应用需求。贵州开拓未来的产品研发对云端部署提出了许多新的要求，接下来会更多地尝试采用SaaS应用。在宋雷看来，华为云在混合云和私有云上具有一定优势，这是由华为自身的基因决定的。华为云的产品在非功能特性上比较出色，比如稳定性和性能，如能进一步提升用户体验，就更加完美。在贵阳只有两名华为云MVP，宋雷便是其中之一，这也让他感觉重任在肩。2019年，宋雷参加了多场华为云产品在贵州的推介会，以及华为软件开发云针对贵阳高新区领导的汇报会议。推广和帮助其他人使用华为云、体验华为云，并提出建设性的改进意见，宋雷义不容辞。虽然责任更重了，但宋雷同时也感到自我驱动力更强了。不管是出于爱好、激情还是责任，在宋雷看来，写作都是自我驱动力的一种体现。将写作看作是一种修炼的宋雷，将伴随华为云一起修炼、提升和完善。Part2:和华为云ModelArts共同成长时间一晃，任如意担任帆一尚行（上汽云计算中心）AI团队的技术负责人已经两年了。博士毕业、研究方向是船舶智能控制系统的任如意，一直对工业领域的AI应用情有独钟，所以现在的工作对他来说是如鱼得水。刚刚成为华为云MVP的任如意据说是华为云ModelArts一站式AI开发与管理平台的铁杆粉。回忆起曾在华为杭州研究所一年半的工作经历，任如意至今记忆犹新，当初在中央软件院编程语言实验室从事与编程语言和AI芯片相关的工作，让他获益匪浅。帆一尚行（上汽云计算中心）AI团队技术负责人任如意为了支撑集团的自动驾驶业务开发，任如意所在的团队开发了一站式自动驾驶平台——iGear平台，方便自动驾驶研发团队在其上构建丰富的业务应用，同时还为集团内其他部门开发诸如燃料电池实验分析平台、故障检测等端到端的解决方案等。上汽集团在AI方面已经有非常多成功的落地实践，包括智能制造、自动驾驶、智能物流、智能出行等，比如全球首次5G+AI智能化港区作业成功落地，以及上汽5G智能重卡成功实现在港区特定场景下的L4级自动驾驶等。上汽集团在AI方面最迫切的需求，就是更强大、更便宜的算力，无论是在训练侧还是在端侧。“现在基于深度学习的人工智能开发、训练、推理和部署的成本比较高，如果将来能够有更普惠、更便宜的软硬件方案和标准，那么做AI开发和应用将是一件非常幸福的事。”任如意有感而发。说来凑巧，因为开发iGear机器学习平台的缘故，任如意较为深入地研究了市场上几乎所有的机器学习平台。华为云ModelArts刚开放试用时，任如意就已经在关注，后来华为云ModelArts正式发布后，任如意便迫不及待地将其几乎所有功能都试用了一遍。“我个人比较喜欢ModelArts清晰的定位和务实的功能。”任如意表示，“ModelArts定位于一个普惠的机器学习平台，基本包含了中小企业、研究者和个人进行AI开发的所有功能，并且以一种清晰、简单的用户界面展现出来。在标注、预标注、训练、部署、框架等各个方面，做到了功能和易用性的很好平衡。”通过实际使用，任如意感觉ModelArts是公有云平台中比较优秀的机器学习平台。而让任如意非常期待的是，ModelArts未来可以无缝对接华为自研AI芯片。在试用ModelArts的过程中。任如意还积极地参与到ModelArts社区中，并因此结识了华为的许多专家和社区里的朋友，进一步加深了对ModelArts的了解。ModelArts经常会有一些社区活动，比如算法实践和竞赛等，为大家提供了一个交流技术、分享想法的平台。这也让任如意与华为云ModelArts越走越近。作为团队中的技术架构师，任如意的主要工作是帮助团队进行总体架构设计和技术选型，解决一些工程上的难题，并且致力于打造一支热爱分享、心态开放、算法和工程能力齐头并进的AI技术团队。正是基于此，他理想中的AI平台应该能够全方位地支撑AI开发和落地，让开发人员在其上只专注于业务开发，而将其他的都交给平台来处理。“我们希望拥有一个稳健的能够存储海量数据的分布式存储系统、强大灵活的数据处理系统、功能多样且易用的标注服务及自动标注服务、强大的算力和能够灵活调度、提供不同算力的训练平台，以及模型推理发布平台等。”任如意表示，“因此，我们知道，做一个通用的AI开发平台并非易事，需要从不同的需求中提炼出真正核心的部分。这就是像ModelArts这样的公有云上的机器学习平台需要不断创新和完善的。”任如意个人比较推崇公有云上普惠性的机器学习平台。他个人所做的一些小项目就是构建在华为云ModelArts上的。作为华为云MVP，任如意表示，自己最重要的责任还是在ModelArts社区的推广上。他曾经作为社区专家与华为云CTO张顺茂等一起发布了沃土计划2.0，并且做过一次基于ModelArts开发人脸情绪识别应用的技术直播，有近5000人收看。这些令人兴奋、激动的瞬间都成了任如意2019年最美好的回忆。让他倍感欣喜的是，ModelArts社区在迅速壮大，有更多小伙伴参与其中。作为社区的一份子，任如意希望未来能够与社区一起成长进步。Part3:与华为云合作是一种享受说实话，最开始关注南京小脚印网络科技有限公司（以下简称“小脚印科技”）产品副总林艺玲，主要因为她是华为云MVP中屈指可数的女性。不过在仔细看了她的简历后，对于她华为云MVP的身份不由得暗暗称赞：截至目前，她已在华为云博客上发表了21篇技术文章；在华为全联接大会上，为女性开发者站台；成功地为华为云推荐过两位MVP，并推荐两位用户采用华为云……这应该是华为云MVP最成功的典范吧！小脚印科技专注于为照明、电力、交通、地产等行业的客户提供包括智能终端、云端管理、大数据和AI运营服务等在内的一揽子解决方案。作为公司产品与运营的负责人，林艺玲在日常工作中经常要与华为云的软件开发云、AI云，以及云服务器等打交道。举例来说，华为软件开发云提供了项目管理、质量管理等一些很好的工具，基于这些功能和工具，小脚印科技顺利完成了任务把控、Bug跟进、开发质量管理等工作。南京小脚印网络科技有限公司产品副总林艺玲“最初，我感觉华为云上的东西很全、很强大，但是怎么用完全摸不清方向，使用起来也有点困难。后来，我将改进建议通过平台、线下等多种方式进行反馈，基本上每个反馈意见都得到了华为云的积极响应。”林艺玲表示，“用心倾听用户的声音，快速反馈和迭代发布，华为云越来越好用。这是让我印象最深刻的。”接下来，小脚印科技将在AI方面重点投入，会考虑将现有业务与华为AI云相结合，为客户提供更优质的服务。在工作中，林艺玲并没有性别差异观念。公司的目标是又快又好地打造产品，为用户解决问题，让用户满意的同时又感觉很惊艳。而这一切离不开团队的协作，只有所有成员各司其职，才能赢得客户的青睐，而这与性别无关，只与有没有把本职工作做好有关。林艺玲之所进入IT行业，说到底还是因为热爱。在这样一个偏男性主导的工作环境中，她在刚入行时也曾质疑过自己，但是做产品岗后，她的想法彻底改变了：“可能在编程方面，我无法达到一些男生的高度，但在产品方面，我比较敏感，能够快速发现并理解用户需求，找到问题解决的路径，并将很多好的想法付诸实践，创造让世界变得更美好的东西。这就像是哥伦布发现新大陆，充满惊喜，让人倍感珍惜并全情投入。”在IT行业浸润多年，到现在，林艺玲完全是在享受自己的工作。虽然忙碌，可是她非常享受对自己工作节奏感的把握、探寻未知领域的乐趣，以及在变化中寻找不变的快感。承担起华为云MVP的职责，对林艺玲来说也是一种享受。她参加了包括华为全联接大会MVP研讨会、产品体验调查和访谈，以及云上直播话题互动等在内的多项活动。成为华为云MVP后，她在使用华为产品时，会自然而然地从完善产品角度去考虑功能，而且范围不局限在华为云的产品，针对其他种类的华为产品也会主动体验和提出改进建议，比如短信业务、WeLink等。此外，林艺玲还为华为云社区撰写技术博客，与他人交流技术问题等。在这些沟通和互动中，她不禁感慨华为云对开发者的重视，同时也惊讶于华为云的前进速度。特别值得一提的是，林艺玲非常主动地将自己身边一些不同领域资深的开发者朋友吸引过来，成功推荐了在卫星通信、5G及IoT等行业有多年实战经验的两位专家，一方面可以让这些朋友在与华为云开发者交流的过程中有所收获，另一方面也能助力华为云开发者社区的成长。后记在上云的早期，企业用户之所以对上云犹豫不决，或者望而却步，很大程度上就是怕在一缺资金、二缺人才、三缺技术的基础上自己摸着石头过河，会多走弯路，甚至有失败的风险。华为云MVP的独特价值体现在：他们是一批成功上云、用云的榜样，通过他们的现身说法，为其他想上云的企业提供了有益的借鉴；华为云MVP还是一面镜子，可以让华为云看清企业上云最真实的需求，并据此持续优化自身的产品和解决方案；华为云MVP更是尽职尽责的云计算布道者，擎着云计算的旗帜，引导市场和应用不断走向深入。华为云MVP就像是星星之火，在你我的身边点燃企业上云最炽热的火焰。

追梦小柠檬 发表于2020-06-06 16:09:00 2020-06-06 16:09:00 最后回复追梦小柠檬 2020-06-06 16:09:00
3550 0

大数据机器学习
[问题求助] Notebook+云硬盘的实例上传大数据集的方式不方便

从官方教程中了解到，使用Notebook+云硬盘的实例时，上传超过100MB的数据需要通过OBS客户端，然后还要使用SDK从OBS下载数据到Notebook，使用方式有点复杂，能直接从本地上传大数据集至Notebook吗？而不用从OBS绕一下。

梅雨季 发表于2020-06-03 11:08:40 2020-06-03 11:08:40 最后回复用户 2020-06-04 08:46:58
720 1

云硬盘 EVS 大数据
[最新动态] 【Huawei LiteOS设备开发实战营】获奖公告帖

说明：1. 标黄部分为顺延楼层，即原定楼层不符合获奖2. 请获奖同学于6.7前邮箱（oceanconnect@huawei.com）联系小助手，提供以下信息 a) 第X次打卡获奖 b) 获奖楼层及获奖昵称 c) 获奖昵称截图，如下： d) 收货信息：收件人，地址，电话3. 如果不记得自己的昵称了，可以回复本帖试试看看第七天打卡抽奖公示：获奖楼层获奖名单奖品140威尔HCIA考券61JackYu156微尘·90空空8LearningPawn5130zherhui67DreamerCJ53SCCSQ开发板83Alex0099107联、、、32qinglongdao116无她亦果194axushilong129JacobFang57樊心昊148luoboluobolu47zyknet12vincent_hell28jim_real78秃头9华束隐2贵港梁朝伟135K_SORA79做个技术大佬158柚别丶有歌10小菜鸟菜又菜25h12300第三天打卡抽奖公示：获奖楼层获奖昵称奖品17胡琦《万物互联：物联网核心技术与安全》20Amazing_IF26秃头30frankyu112036LIAI41yurisss63杨蛟98Casperflip101裴志松114wesong122cx2vj128Ain129潮小子133iBlueLove140那个同学145低调需要炫耀150PortB155螺丝侠164chenxi5525168hushigen169空空176bjxingch185a3781857188猪兔子202Jonathan122214chenzeshi216yyhl4283222xmushjj229kuaileguyue235linjiachen第一天打卡抽奖公示：获奖楼层获奖昵称奖品5可雾的银定制水杯9麦哲伦杰哥定制水杯13Jasmine-Lily定制水杯17haohaoandYY定制水杯21亦钊定制水杯22千度定制水杯24h12300定制水杯25胡琦定制水杯27地雷开花定制水杯29QINGUISO定制水杯36zhuanganmin定制水杯44爱学习爱劳动定制水杯45秦玉安定制水杯54J丶徘徊定制水杯58无她亦果定制水杯68吉桐定制水杯69LazyBones定制水杯70Holmesc定制水杯74lihahagang定制水杯77如果河流会说谎定制水杯79Aiwaves定制水杯85yooh_Emi定制水杯87K_SORA定制水杯97神龙居市定制水杯99Casperflip定制水杯102果树苗定制水杯103hj007定制水杯107xmushjj定制水杯114揽星河入梦定制水杯119果力成定制水杯126张辉定制数据线129ynzhang定制数据线133憨憨请爱我定制数据线135双马尾可爱到家定制数据线136hw24283765定制数据线139马大力定制数据线147chen_hao定制数据线148HideOnStream定制数据线155一条龙定制数据线160那个同学定制数据线167珞瑜意定制数据线168╰＊風の舞º定制数据线172qinglongdao定制数据线175shayne_yjl定制数据线176邹佳磊定制数据线183linzhuofeng定制数据线188岳江涛定制数据线190螺丝侠定制数据线191zyknet定制数据线192GF11定制数据线197William10定制数据线203JackYu定制数据线205fengxiaode888定制数据线207小菜鸟菜又菜定制数据线210jn-zx定制数据线218hngc201810916139定制数据线224浪静天空定制数据线229Kansas定制数据线231杨蛟定制数据线232jim_real定制数据线235实柏定制卡包237宋如斌定制卡包250fanwenl定制卡包254Kingmier定制卡包255zherhui定制卡包257Venous定制卡包261华束隐定制卡包269PortB定制卡包272蔡智定制卡包274MrJiang定制卡包275LYanG定制卡包276Eleven丶定制卡包278Yishif定制卡包279河仙子定制卡包284piqingquan定制卡包286linjiachen定制卡包287乐享大数据定制卡包288chenzeshi定制卡包290Sunshine2020定制卡包292林酒酒定制卡包297杉树鹿夏定制卡包299qqz定制卡包309yzz163定制卡包308lovrmore定制卡包311aaron-hw定制卡包312hw13572552定制卡包315heinsea定制卡包323花花程度定制卡包320一硕定制卡包322朝惜定制卡包

华为IoT云服务 发表于2020-05-27 08:59:31 2020-05-27 08:59:31 最后回复秃头 2020-06-04 12:32:20
7108 15

轻量级操作系统 LiteOS 数据库大数据
[行业动态] 转载：大数据与云计算之间的关系是怎样的？

转载自知乎，原文地址：https://www.zhihu.com/question/31912565，作者：青牛如今，两种主流技术已成为IT领域关注的焦点-大数据和云计算。根本不同的是，大数据只涉及处理海量数据，而云计算则涉及基础架构。但是，大数据和云技术提供的简化功能是其被大量企业采用的主要原因。例如，亚马逊的“ Elastic Map Reduce”演示了如何利用Cloud Elastic Computes的功能进行大数据处理。两者的结合为组织带来了有益的结果。更不用说，这两种技术都处于发展阶段，但是它们的结合在大数据分析中利用了可扩展且具有成本效益的解决方案。那么，我们可以说大数据与云计算完美结合吗？好吧，有数据点支持它。除此之外，还需要处理一些实时挑战。大数据与云计算的关系大数据和云计算这两种技术本身都是有价值的。此外，许多企业的目标是将两种技术结合起来以获取更多的商业利益。两种技术都旨在提高公司的收入，同时降低投资成本。尽管Cloud管理本地软件，但大数据有助于业务决策。让我们从这两种技术的基本概述开始！大数据与云计算大数据处理大量的结构化，半结构化或非结构化数据，以进行存储和处理以进行数据分析。大数据有五个方面，通过5V来描述数量–数据量种类–不同类型的数据速度–系统中的数据流率价值 –基于其中包含的信息的数据价值准确性 –数据保密性和可用性云计算以按需付费的模式向用户提供服务。云提供商提供三种主要服务，这些服务概述如下：基础架构即服务（IAAS）在这里，服务提供商将提供整个基础架构以及与维护相关的任务。平台即服务（PAAS）在此服务中，Cloud提供程序提供了诸如对象存储，运行时，排队，数据库等资源。但是，与配置和实现相关的任务的责任取决于使用者。软件即服务（SAAS）此服务是最便捷的服务，它提供所有必要的设置和基础结构，并为平台和基础结构提供IaaS。大数据与云计算的关系模型云计算在大数据中的作用大数据和云计算的关系可以根据服务类型进行分类：IAAS在公共云中IaaS是一种经济高效的解决方案，利用此云服务，大数据服务使人们能够访问无限的存储和计算能力。对于云提供商承担所有管理基础硬件费用的企业而言，这是一种非常经济高效的解决方案。私有云中的PAASPaaS供应商将大数据技术纳入其提供的服务。因此，它们消除了处理管理单个软件和硬件元素的复杂性的需求，而这在处理TB级数据时是一个真正的问题。混合云中的SAAS如今，分析社交媒体数据已成为公司进行业务分析的基本参数。在这种情况下，SaaS供应商提供了进行分析的出色平台。大数据与云计算有何关系？因此，从以上描述中，我们可以看到，Cloud通过可伸缩且灵活的自助服务应用程序抽象了挑战和复杂性，从而启用了“即服务”模式。从最终用户提取海量数据的分布式处理时，大数据需求是相同的。云中的大数据分析有多个好处。改进分析随着云技术的进步，大数据分析变得更加完善，从而带来了更好的结果。因此，公司倾向于在云中执行大数据分析。此外，云有助于整合来自众多来源的数据。简化的基础架构大数据分析是基础架构上一项艰巨的艰巨工作，因为数据量大，速度和传统基础架构通常无法跟上的类型。由于云计算提供了灵活的基础架构，我们可以根据当时的需求进行扩展，因此管理工作负载很容易。降低成本大数据和云技术都通过减少所有权来为组织创造价值。云的按用户付费模型将CAPEX转换为OPEX。另一方面，Apache降低了大数据的许可成本，该成本应该花费数百万美元来构建和购买。云使客户无需大规模的大数据资源即可进行大数据处理。因此，大数据和云技术都在降低企业成本并为企业带来价值。安全与隐私数据安全性和隐私性是处理企业数据时的两个主要问题。此外，当您的应用程序由于其开放的环境和有限的用户控制安全性而托管在Cloud平台上时，这成为主要的问题。另一方面，像Hadoop这样的大数据解决方案是一个开源应用程序，它使用了大量的第三方服务和基础架构。因此，如今，系统集成商引入了具有弹性和可扩展性的私有云解决方案。此外，它还利用了可扩展的分布式处理。除此之外，云数据是在通常称为云存储服务器的中央位置存储和处理的。服务提供商和客户将与之一起签署服务水平协议（SLA），以获得他们之间的信任。如果需要，提供商还可以利用所需的高级安全控制级别。这可确保涵盖以下问题的云计算中大数据的安全性：保护大数据免受高级威胁。云服务提供商如何维护存储和数据。有一些与服务级别协议相关的规则可以保护数据容量可扩展性安全隐私数据存储的可用性和数据增长另一方面，在许多组织中，大数据分析被用来检测和预防高级威胁和恶意黑客。虚拟化基础架构在支持任何应用程序中都起着至关重要的作用。虚拟化技术是大数据的理想平台。像Hadoop这样的虚拟化大数据应用程序具有多种优势，这些优势在物理基础架构上是无法访问的，但它简化了大数据管理。大数据和云计算指出了各种技术和趋势的融合，这使IT基础架构和相关应用程序更加动态，更具消耗性和模块化。因此，大数据和云计算项目严重依赖虚拟化。

Catharina 发表于2020-05-27 08:52:56 2020-05-27 08:52:56 最后回复 Catharina 2020-05-27 08:52:56
5836 0

云计算大数据
[AI大赛] [萌新上分指南] 2020华为云大数据挑战赛热身赛如何轻松快速提高10分？baseline简单解读与优化思路分享第一弹

## [上分指南] 2020华为云大数据挑战赛热身赛如何轻松快速提高10分？baseline简单解读与优化思路分享第一弹 > 你感受过拿到baseline后长期**35.6483**的绝望吗？ > 如果你回答是，那么请阅读本文！！ **写在前面：大家好！我是练习时长半年的在读本科生数据小白JerryX，各位数据挖掘大佬多多指教！！欢迎大家多多点赞，多多评论，多多批评指正！！** 下面，我们一边研究下baseline，一边看看如何脱离**35.6483**的苦海。 ```python import moxing as mox mox.file.shift('os', 'mox') import os import re import json import pandas as pd from pandas import to_datetime from sklearn.ensemble import GradientBoostingRegressor from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split from sklearn.externals import joblib from collections import OrderedDict ``` 首先是常规操作，**导**入一些必要的**库**。 ```python # 获取竞赛数据集：将“obs-mybucket-bj4/myfolder”改成您的OBS桶名及文件夹 import moxing as mox mox.file.copy_parallel('s3://obs-bdc2020-bj4/traffic_flow_dataset', 's3://obs-mybucket-bj4/traffic_flow_dataset') print('Copy procedure is completed !') ``` 我们再从华为云的OBS获取本次比赛的数据集traffic_flow_dataset并复制到本地路径下。 ```python OBS_DATA_PATH = "s3://obs-mybucket-bj4/traffic_flow_dataset" LOCAL_DATA_PATH = './dataset/train' OBS_MODEL_DIR = "s3://obs-mybucket-bj4/modelfiles/model" OBS_MODEL_PATH = OBS_MODEL_DIR + "/modelfile.m" OBS_CONFIG_PATH = OBS_MODEL_DIR + "/config.json" LOCAL_MODEL_PATH = './modelfile.m' LOCAL_CONFIG_PATH = './config.json' ``` 接下来，我们**宏定义一些路径地址**，包括后续调用数据集，保存模型等的路径。 ```python # read data of one day and one direction def read_file(path, filename): calfile = os.path.join(path, filename) original = pd.read_csv(calfile, header=None) data = pd.DataFrame(columns=["time", "number"]) data["time"] = original[0] data["number"] = original[3] + original[4] return data ``` 这个函数正如注释所解释的一样读取一个方向的一天的数据。其中"time"即当日的一些时间片的时间戳，而"**number"则是某条路段的某个时间点的某个方向的左转和直行的车流量和**。 ```python # read data of one day def read_data_day(path, date): day_data = pd.DataFrame(columns=["time","number"]) caldir = os.path.join(path, date) # read data of one day for f in os.listdir(caldir): if re.match(r'wuhe_zhangheng.*\.csv', f): day_data = day_data.append(read_file(caldir, f), ignore_index=True) return day_data ``` 这一个函数则是读取某一天的数据，我们可以看到在baseline的实现中利用**正则表达式匹配出了"wuhe_zhangheng"这一路口对应的信息**，但是却没有考虑到其他路口的流量信息，那么后续如何将其他路口的流量信息引入，来更好地服务于五和张衡路口的流量预测呢？这是一个可以考虑的方向。 ```python # get and preprocess data def get_data(path): raw_data = pd.DataFrame(columns=["time", "number"]) for day in os.listdir(path): raw_data = raw_data.append(read_data_day(path, day)) # encode time in raw data to weekday and timeindex(the n minutes of the day) df_dt = to_datetime(raw_data.loc[:, "time"], format="%Y/%m/%d %H:%M:%S") all_data = pd.DataFrame({ "weekday": df_dt.dt.weekday/6.0, "timeindex": (df_dt.dt.hour * 60 + df_dt.dt.minute)/(24*60.0), "number": raw_data["number"].astype(int)}) all_data = all_data.groupby(["weekday", "timeindex"]).mean().reset_index(level = ["weekday", "timeindex"]) return all_data ``` 这个函数就是我们获取数据和构建数据集的一个主要函数了，其中我们可以注意到我们构建的数据集包含三大属性：（1）**weekday**：即周次特征的归一化。（2）**timeindex**: 即当天的时间戳。（2）**number:** 从上面的子函数我们可以得知这一属性代表的是某条路段的某个时间点的某个方向的左转和直行的车流量和。 **接下来，上分点来了！！！** 注意：看下面这行代码 ```python all_data = all_data.groupby(["weekday", "timeindex"]).mean().reset_index(level = ["weekday", "timeindex"]) ``` 这行代码达到的目的是什么呢，它将**给定周次的给定时间戳的所有的流量信息做了分组的平均聚合。** 换句话说，它将一个路口的几周的四个车流量做了平均。 **平均。。这对吗？？** ![20200425224650881.jpg](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/190541adgr3lrxwskj2x6w.jpg) 答案提示：欢迎到隔壁网页仔细阅读分析比赛的评价指标，**简单的分析**将会创造**上10分的快乐**！！！ [网页链接：2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析5.10更新版](https://blog.csdn.net/weixin_43945120/article/details/105549069) ```python def train_model(): X_train, X_test, y_train, y_test = train_test_split(local_data[['weekday','timeindex']], local_data['number'], test_size=0.1, random_state=42) print("X_train shape is: " + str(X_train.shape)) print("X_test shape is: " + str(X_test.shape)) params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2, 'learning_rate': 0.01, 'loss': 'ls'} clf = GradientBoostingRegressor(**params) clf.fit(X_train, y_train) joblib.dump(clf, LOCAL_MODEL_PATH) y_predict = clf.predict(X_test) mse = mean_squared_error(y_test, y_predict) print("MSE: %.4f" % mse) ``` 咳咳，下面继续看看后面的函数吧。这个函数就是**模型训练**的部分了，利用了**梯度提升决策树的模型**，同时利用**MSE**作为模型的评价指标。 ```python def create_config(): schema_model=json.loads('{"model_algorithm":"gbtree_classification","model_type":"Scikit-learn","runtime":"python3.6","metrics":{},"apis":[{"procotol":"http","url":"/","method":"post","request":{"Content-type":"applicaton/json","data":{"type":"object","properties":{"req_data":{"type":"array","items":[{"type":"string"}]}}}},"response":{"Content-type":"applicaton/json","data":{"type":"object","properties":{"resp_data":{"type":"array","items":[{"type":"number"}]}}}}}]}',object_pairs_hook=OrderedDict) schema_model['model_algorithm'] = "gbtree_regression" schema_model['model_type'] = "Scikit_Learn" with open(LOCAL_CONFIG_PATH, 'w') as f: json.dump(schema_model, f) ``` 这个函数进行了一些**模型的配置**，建议参考相关document进行修改哈。~~随意修改，bug++~~ ```python if __name__ == "__main__": # copy data from obs to local mox.file.copy_parallel(OBS_DATA_PATH, LOCAL_DATA_PATH) # read and preprocess data local_data = get_data(LOCAL_DATA_PATH) # train model train_model() # create config.json create_config() # upload model to obs mox.file.copy(LOCAL_MODEL_PATH, OBS_MODEL_PATH) mox.file.copy(LOCAL_CONFIG_PATH, OBS_CONFIG_PATH) print("Model training has been completed!") ``` 这里就是主函数调用的部分了，可以看出整个流程的pipeline还是非常清晰的，对于萌新较为友好。 **先简单说怎么多，学业繁忙，就先分享一个上分点啦，后续还会继续进行其他优化思路的分享，欢迎大家持续关注哈~~**

JerryX 发表于2020-05-16 19:06:20 2020-05-16 19:06:20 最后回复 JerryX 2020-05-18 21:50:59
4203 6

大数据
[AI大赛] 2020中国高校计算机大赛·华为云大数据挑战赛热身赛_交通流量预测赛题思路分享

## 2020中国高校计算机大赛·华为云大数据挑战赛热身赛_交通流量预测赛题思路分享 **写在前面：大家好！我是练习时长半年的在读本科生数据小白JerryX，各位数据挖掘大佬有什么问题和建议多多指教！！欢迎大家多多点赞，多多评论，多多批评指正！！** 本篇文章首发于我的CSDN博客上，有兴趣的小伙伴也欢迎到[我的CSDN博客上](https://blog.csdn.net/weixin_43945120/article/details/105549069)康康哈！ ![20200416033423732.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183351yg0btifwn0h45jbu.png) **更新的一张拓扑结构及地理位置示意图！！！** （画图不易，觉得不错拿走不谢！欢迎点赞关注！） ![20200512213628885.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183415rjb7jesmazfr2gvb.png) ### **0. 赛题介绍** **赛题背景** 随着电子信息和移动通信技术高速发展和不断融合，人工智能在各个领域都相继取得了巨大的突破，城市智能体也应运而生，而城市交通又是城市智能体的核心。交通流量数据既是城市交通中的基础数据，又是反应交通状况的重要指标之一，**准确预测交通流量**对城市交通具有重大意义。本题以交通流量预测为目标，邀请各个队伍以历史交通流量数据建立对应的算法模型，**预测目标流量数据，通过预测值和真实值之间的对比得到预测准确率，以此来评估各队伍所提交的预测算法。** [大赛官网链接](https://competition.huaweicloud.com/information/1000037843/bdc2020) **赛题说明** 本次比赛任务是**利用历史数据**并**结合地图信息**，预测**五和张衡交叉路口未来一周周一（2019年2月11日）和周四（2019年2月14日）两天的5:00-21:00通过wuhe_zhangheng路口4个方向的车流量总和**。要求模型输出格式如下： **{"data":{"resp_data":{"wuhe_zhangheng":[1,4,5,6,4...]}}}从5:00开始每5min的预测数据，第一个数据为5:00-5:05的流量值，最后一个数据为20:55-21:00。两天的数据按时间先后放在一起，总共有384个数据。** 小提示：如果不考虑**天气**、**周边活动**、**节假日**等因素，预测结果可能不准确哦。 **数据说明** 本次比赛提供**4周（2019.1.12 – 2019.2.8）深圳龙岗区坂田街道交通流量历史数据**。车流数据格式如下: ![20200416024933786.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183446kmn8ajubx1gzml9y.png) 其中，**time**为上述格式时间字符串，**cross**为路口名，**direction**为车流起始方向，**leftFlow**是左转车流，**straightFlow**是直行车流。说明：（1）十字路口包含四个方向车流数据，此处未全部列出。（2）路口名称分别为：**五和路、张衡路、稼先路、隆平路、冲之大道。**可以通过但不限于百度地图等地图软件**获取地图路网**信息。（3）因为右转车流不受信号灯控制，因此未做统计。 **评分标准** **第一部分（分类问题）** 分类问题评价标准： ![2020041603323415.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183549pkv4hlytlylkp2kk.png) 预测的评价是通过每一个5min预测车流和真实通过车流对比，看看趋势是否一致（比如10月19日的5：00到5:05的真实车流是4，10月20日的5：00到5:05的真实车流为5，那么只要车流预测值大于4，就得100分，最后得分为所有得分求加权平均（权重为该时间段所在小时的车流量占16小时总车流的比重））。 **第二部分（回归问题）** 回归问题评价标准： ![20200417221013929.jpg](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183606weoqbtcpngzwnqgr.jpg) 预测的评价还是通过每一个5min 预测车流和真实通过车流通过grade公式计算最后得分，加权细则与第一部分相同：其中wi为权重，xj为真实车流数据，xj拔为预测车流数据，ε为e-9。 **最后将两部分分数做归一化处理，第一部分占比40%，第二部分占比60%。** ============================ 我是分割线====================================== 下面我们在赛题数据还没有出来之前，先从地图角度出发分析一下有什么地图信息可以挖掘一下吧！！ ### **1. 预测目标地理位置可视化：五和张衡交叉路口** 所谓“知己知彼，百战百胜”，我们先来看看我们的目标预测位置有什么地理特点吧！ **先看看局部的地理位置：** ![20200416024319348.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183522tm8h2fxukjhl4zof.png) **再来看看整体的地理位置：**![20200416025443821.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183710qgd9w9bscbfecapw.png) 震惊！！原来是华为的老巢！！那么**朝九晚五**必然是我们要考虑到的一个**重要的特征**啦！ ### **2. 流量与时间关系地理位置初步可视化分析** 借助百度地图的流量预测功能，我们可以直观的看到一周7天不同时间段的基本的车流量情况。下面我们进一步初步分析，可以得到两个结论： 1.**任老板的公司**不仅**朝九晚五**，竟然还有 **十点的狂欢**（再一次震惊！)可见下面三张图： ![20200416030156549.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183754cb9kasowenioxg6v.png) ![20200416030348994.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183810kewemzxlm9h0i7sp.png) ![20200416030445254.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183824mjnotkfq95lgi9la.png) ### **3.简单空间拓扑结构信息抽取思路介绍** 看到地图，我们就能够想到要**建图抽取特征**啦！我们在这道题目里面可以**把道路看成边，路口看成结点，**组织成一个简单的**图结构**！ ![20200416031450471.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183923hrftughqxmcecuad.png) 通过百度地图好用的测距功能，我们就可以很方便地抽取出来**空间结构信息**，以便后续进一步挖掘**不同路口结点之间的流量关系**啦！ ![2020041603114874.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183944uyanfp3m3zdmso9f.png) 我们可以使用邻接矩阵抽特征的方式，将拓扑图结构的空间相关性在特征层建模出来，使得时序神经网络模型/传统机器学习方法也能够处理复杂图结构的空间相关性问题。 ### **4. 训练集与测试集时间对应日历表分析** ![20200419014506910.jpg](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/183956imv059gshwfr1skd.jpg) ![2020041901452746.jpg](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184001rnksypaphy4xqlrj.jpg) 我们的**训练集**对应时间是从**1月12日到2月8日**，其中通过观察训练集所给时间的日历信息，可知这一段时间涉及了**2019年的春节假期**。而测试集所需要预测的**2月11日与2月14日是春节长假后的两日**：其中**11号是春节后的第一天的工作日，而14号情人节又是个节假日**。以上几点或许会给我们对于**车流量的预测**会引入不同方面的影响，大家可以留意一下哦！ ### **5. 竞赛相关准备信息** **4.1 获取竞赛数据集方法**： 1.从**OBS拷贝竞赛数据集**，首先**登录OBS管理控制台**，在**华北-北京四**创建您的**OBS桶** 2.登录**ModelArts**管理控制台，在**华北-北京四创建Notebook**，将**如下代码中**的**my_bucket/my_folder替换成您自己的OBS桶**； 3. 最后**运行代码**，将**竞赛数据集拷贝至您的OBS桶**中。 ```python import moxing as mox mox.file.copy_parallel('s3://obs-bdc2020-bj4/traffic_flow_dataset','s3://my_bucket/my_folder') print('Copy procedure is completed !') ``` **4.2 模型规范** 1) 所提交的**模型必须请满足赛题说明中的模型输出格式**，且要**符合ModelArts模型包**规范。 2) 评分系统使用ModelArts 批量服务加载参赛者所提交的模型，批量服务的输入目录中为**一个batchin.csv 文件，文件内容为预测时间（2019-2-11,2019-2-14）**。建议参赛者在**提交模型之前，先通过ModelArts的“批量服务”验证模型的可用性和准确性**。 3) ModelArts 模型管理中的模型创建后，不会自动更新，如果您有了更好的模型需要提交判分，要重新导入模型，然后再将重新导入的模型提交判分。说明：详细操作请查看[大赛官网交流论坛](https://developer.huaweicloud.com/hero/group-1074-1.html)的相关文档。 **4.3 提交说明** 所有参赛者**需使用华为云一站式AI开发平台ModelArts**来开发模型，且将**模型部署为在线服务或批量服务验证其正确性**。确认**模型输出无误**后，在ModelArts平台上将开发好的**模型提交判分**，最后在竞赛平台上查看分数及排名。提交方法：（1）在**ModelArts左侧导航栏**中选择“**模型管理>模型**”，单击**模型名称左侧“∨”**，然后**单击页面右侧操作栏中的“发布>参赛发布”**。 ![20200418185232893.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184027kgo6sixnoltfa4m2.png) （2）在弹出的**“参赛模型提交”对话框**中，选择**比赛项目**、**比赛阶段**，然后单击**确定**。点击确定后，**即成功提交模型判分**。在如下界面中可点击“现在加入”，也可以点击“以后再说”或直接点击右上角关掉该对话框。 ![2020041818530891.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184035cwqgkztwzmlj1mg0.png) 说明：模型**提交判分后，需等待一定时间**判分系统进行判分需一定时间，运行时长与选手提交的模型有关），判分系统完成判分后，可在**竞赛平台“提交作品”中查看得分**，其中“提交作品”页面需报名比赛后才会显示。 **评分说明** （1）本次比赛榜提交时间段为：**4月17日10:00 - 5月22日14:00。** （2）每个团队**每天有3次评测机会**，所提交的**模型得分**可在大赛平台页面**“提交作品”中查询**。（3）排行榜**每6个小时刷新**一次。 ### **5. 热身赛奖项（新）** 大赛将提供**100 元华为云资源代金券**，成功报名的参赛者可点击页面上方“领取”获得代金券（每位参赛者仅可领取一次）。另外，**热身赛将设置以下奖项和奖品**： ![20200418190751305.jpg](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184050o7hecneym2ttywcc.jpg) **下面上热身赛奖品实物图！！！心动了吗？加油吧！[手动狗头]** ![20200423231804719.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184108g2yteesqdru4qoql.png) ### **6. 评价指标详解（新）** **6. 1 分类指标详解** ![20200419181616311.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184113mycf0bzoigz8zs89.png) **6. 2 回归指标详解** ![20200419182314729.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184134bxwbhdqltgptnzyz.png) **6.3 总评价指标：** ![2020041918262961.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202005/16/184142cxpmnfk9ozejxnet.png) ***友情链接：*** [大赛官网交流论坛](https://developer.huaweicloud.com/hero/group-1074-1.html) [ModelArts学习资料及案例](https://developer.huaweicloud.com/hero/forum.php?mod=viewthread&tid=51562) [热身赛赛题Baseline](https://developer.huaweicloud.com/hero/forum.php?mod=viewthread&tid=51561) [代金券及ModelArts体验规格使用【非常重要】](https://developer.huaweicloud.com/hero/forum.php?mod=viewthread&tid=51578) **感谢大家的耐心阅读，有什么建议或者问题也欢迎大家在评论里提出来哦~~** **也请大家多多指教！！**

JerryX 发表于2020-05-16 18:44:56 2020-05-16 18:44:56 最后回复 DreamIng 2021-06-22 22:57:12
8760 1

大赛大数据
[教程] 大数据内核生态及工具类汇总帖

本汇总贴收集大数据内核生态圈以及容器等方面的技术贴，并不局限于CloudTable和HBase致力于汇总各方面技术，提升综合能力定期更新...论文阅读https://bbs.huaweicloud.com/blogs/172091 一份数据搞定OLAP+OLTP（上）https://bbs.huaweicloud.com/blogs/174975 一份数据搞定OLAP+OLTP（下）https://bbs.huaweicloud.com/blogs/224463 【Akka系列】之 Akka介绍https://bbs.huaweicloud.com/blogs/224466 【Akka系列】之 Akka和Actors在Flink中的应用https://bbs.huaweicloud.com/blogs/224456 【Akka系列】之为什么现代系统需要一个新的编程模型？https://bbs.huaweicloud.com/blogs/224460 【Akka系列】之 Actor模型如何满足现代分布式系统的需求kuberneteshttps://bbs.huaweicloud.com/blogs/163511 kubernetes基本概念及操作命令工具https://bbs.huaweicloud.com/blogs/184576 Weld环境安装Hadoophttps://bbs.huaweicloud.com/blogs/176372 给hadoop3, hbase2引入高效压缩zstd本地库https://bbs.huaweicloud.com/blogs/173690 Hadoop NameNode的ZKFC机制https://bbs.huaweicloud.com/blogs/207329 Linux下安装Hadoop（3.1.1）详解及WordCount运行https://bbs.huaweicloud.com/blogs/211416 Windows10配置运行Hadoop（非WSL模式）kafkahttps://bbs.huaweicloud.com/blogs/163503 Kafka-Manager编译&安装&启动Hivehttps://bbs.huaweicloud.com/blogs/168931 Hive Orc和Parquet格式默认采用Zstd压缩算法https://bbs.huaweicloud.com/blogs/170644 ORC文件stripeSize引发的一起血案https://bbs.huaweicloud.com/blogs/184575 Hive RuntimeFilterhttps://bbs.huaweicloud.com/blogs/207331 Linux下安装hive（2.3.3）详解及HiveSQL运行 https://bbs.huaweicloud.com/blogs/211420 Windows10配置运行Hive（非WSL模式） Sparkhttps://bbs.huaweicloud.com/blogs/167523 使用async-profiler工具分析spark executor性能https://bbs.huaweicloud.com/blogs/174998 Spark任务失败 Container be Killed 案情分析https://bbs.huaweicloud.com/blogs/176324 Spark shuffle介绍：概述https://bbs.huaweicloud.com/blogs/180493 在Windows-IntelliJ IDEA启动Spark集群、Spark App、Spark shell和Spark sqlhttps://bbs.huaweicloud.com/blogs/189426 Spark源码分析（一）：Spark-SQL中关于Subquery的处理https://bbs.huaweicloud.com/blogs/195741 SparkSQL代码走读分析https://bbs.huaweicloud.com/blogs/212457 Spark on RDMA测试套件HiBench使用实践Carbonhttps://bbs.huaweicloud.com/blogs/169357 Apache CarbonData实用系列之一：与Spark SQL集成使用https://bbs.huaweicloud.com/blogs/170472 Apache CarbonData实用系列之二：与Hive集成使用https://bbs.huaweicloud.com/blogs/182103 用Carbondata做CDChttps://bbs.huaweicloud.com/blogs/195860 CarbonData索引管理（一）https://bbs.huaweicloud.com/blogs/196138 Apache CarbonData 2.0 开发实用系列之三：与Presto SQL集成使用Impalahttps://bbs.huaweicloud.com/blogs/170643 Impala - Bloom Filter的实现及使用https://bbs.huaweicloud.com/blogs/174769 Impala - Runtime Filter的原理及实现Javahttps://bbs.huaweicloud.com/blogs/175240 典型编程案例分析（一）— 谈谈你最“熟悉”的JDKOozie https://bbs.huaweicloud.com/blogs/178597 Oozie源码分析 (一) : Oozie的客户端启动过程https://bbs.huaweicloud.com/blogs/178601 Oozie源码分析 (二) : Oozie的服务端执行过程

Lettle whale 发表于2020-05-14 15:56:07 2020-05-14 15:56:07 最后回复 Lettle whale 2021-01-31 20:00:16
9999 31

SQL 大数据
[技术干货] 转载：SaaS之王Salesforce如何长成千亿美金巨兽？

本文转载自微信公众号“中欧商业评论”（ID:ceibs-cbr），作者：24晓识。回望封王之路，Salesforce牢牢把握住了每一个爆发节点，并结合市场特征不断尝试新的变革。一路带领CRM单一产品，从工具走向平台，走向社交网络，如今又走向AI。巨头正是这样，一步步演化而来。1996年，长了一张“硅谷最大的嘴”的甲骨文高级副总裁马克·贝尼奥夫31岁，早早感受到了“职场中年危机”，他觉得自己似乎把大半辈子都卖给了公司，是时候静下心来好好思考未来了。他先是在夏威夷海岛上待了3个月，接着又去印度浪了2个月，期间虽然身在东方，却心系硅谷。回来后，他想明白了一件事：甲骨文所在的软件行业要完蛋了。而颠覆它的，正是当时席卷美国的最热门概念：互联网。贝尼奥夫有一种强烈的感受：未来，软件不会再像PC时代那样，部署在电脑本地，而是直接存在于互联网上，客户可以按需使用。这源于传统软件行业一个根深蒂固的痛点：又贵又用不起来。当时，即使低端软件产品的授权费也在1500美元左右，要是加上服务支持、定期咨询、购买硬件、人员管理、培训等，一个供200人团队使用的低端软件产品，一年总花费高达180万美元。但这些企业花大价钱购买的软件，大多数时间都被束之高阁。1996年，就在贝尼奥夫在夏威夷度假期间，美国一家CRM（企业级销售管理软件）软件厂商Siebel成功上市了。作为这家企业的投资人，贝尼奥夫清楚，65%的Siebel软件几乎从未被使用过。3年后的1999年，贝尼奥夫终于把“终结软件业”的脑洞变成现实。这一年，他创立了Salesforce，推出了在线形态的CRM产品。Salesforce由此开启了一场变革——不需要本地部署的、按需使用的互联网软件服务，也就是后来的SaaS。如今，SaaS已是广义云计算的重要组成部分，也是云计算厂家最新一轮生态战的重要“竞技场”。而Salesforce的市值也达到1200亿美元，占据CRM 20%的市场，财富500强公司中，有83%都在使用它。公司雇员超过3万人，公司大楼是旧金山市最高的摩天大厦。围绕Salesforce建立起一个完整的商业生态，Saleforce每赚1美元，它的生态就会产生4美元。成千上万的开发者为Salesforce平台开发app，Salesforce开发本身已经形成一个产生利益的市场。IDC预计，到2022年，Salesforce将会产生330万个新岗位，创造8000亿美元的新业务收入。过去20年，Salesforce是如何以全新模式颠覆了传统的软件服务商？如何一直保持营收增长？让我们回溯这头巨兽的崛起之路，从中寻找答案。01 单点突破，云端颠覆者横空出世Salesforce将所有软件带入云端的愿景，是革命性的。成立以后的第一个十年，Salesforce几乎凭借一己之力，打造了全新的CRM产品，以及特别的商业服务模式，向市场推广普及了SaaS概念。20世纪90年代后期，老牌的软件巨头甲骨文和SAP仍在不断鼓励客户添加更多的功能，这也让CRM软件变得愈发庞大和复杂。Salesforce则高举“No Software”大旗，向微软、Siebel、甲骨文和 SAP 等行业巨头叫板，开发出更加易用的产品。这些通过云端提供的SaaS（软件即服务)产品，可以快速安装，并与客户的现有系统进行集成，同时具有易于支付、运行更快等优点。传统的软件工具，企业除了购买软件本身，还需要购买、构建和维护自己独立的IT硬件设备。SaaS的出现，为企业提供了另外一种解决方案，借助SaaS平台，企业只需要通过网络注册使用帐号，并在自己的设备上进行一些简单的设置，即可启用所需的软件服务。同时，Saleforce的创新不仅局限于产品，还有商业模式。Saleforce想让软件成为一种公共事业，如同电力一样，由此启用了简单的订阅式服务。在俏皮难懂的概念背后，企业服务乃至整个软件市场发生根本性的变化——一锤子买卖的软件光盘，变成了包月包年的SaaS服务；由专人销售的模式，走向低成本的在线订阅商业模式。这种迭代不仅简化了内部管理架构，大幅降低了**，同时也将企业用户的固定资本投入，转化为运营性的投入。将云服务的概念传递给世界，并为软件市场带来全新的商业模式，Salesforce“云端颠覆者”的自身定位，可谓名实相符。02 平台作战，从SaaS发展到PaaS2004年，Salesforce在纳斯达克成功上市。越来越多的CRM产品进入市场，SaaS企业也如雨后春笋般，模仿Salesforce的商业模式。资本市场开始对Salesforce有了担忧。对于Salesforce而言，基于SaaS模式的CRM业务的想象空间，早已被充分定价，其估值倍数一直处于SaaS领域的顶端。Salesforce需要尽快找到新的增长杠杆，来证明它的未来成长性及长期盈利能力。Salesforce选择在三个方向下手：一、upselling，渗透并拿下大型企业客户市场；二、打造并扩展平台即服务，也就是PaaS生态；三、借助资本力量，扩充能力的边际。Salesforce在中小企业中建立起强大的客户基础之后，开始重视大客户的战略意义。由于大客户的组织结构复杂，要一口气吃下整个销售组织，往往会导致过长的销售周期和更高的丢单风险，Salesforce采取了新的销售策略：“先下单，再扩容（Land and Expand）”。简单来说，就是先拿下大公司里的一个小部门，用产品赢得客户口碑，再利用客户内的关系，转介绍到更上层的负责人或其他部门，逐步吃下所有的潜在用户。比如，在与Cisco的合作中，最早只拿下了一个子部门的65个用户，随后慢慢渗透Cisco内所有的销售部门，将其培养成上千用户的大客户。这个战略不仅让Salesforce的销售和产品能力能够覆盖金字塔上层的市场，保证有更长更可持续的增长通道，还提升了Salesforce的整体投资回报率。因为大客户的ARPU，也就是每用户平均收入，更高，流失率更低。与此同时，为了满足大客户的多样化定制需求，Salesforce开始搭建PaaS平台。开发者可以基于Salesforce开发定制应用，并在核心社区销售自己开发的应用产品。这反过来又增加了Salesforce产品的价值，使得其生态系统更具吸引力。Salesforce还通过投资并购，将不少颇具潜力的SaaS公司收入麾下，继而在自己的产品组合中进行重新定位，将自己的核心产品扩展到CRM之外的领域。通过提供更多的云产品，比如客服支持工具和协作工具，Salesforce撒下了一张更大的网，将更多的用户带上平台。锁定大客户头部市场、依靠资本力量进行并购整合、借助平台能力的双边效应，多管齐下的Salesforce，就这样推动了估值从百亿向千亿美金的突破。03 AI赋能：打造完整生态在行业后辈与传统巨头轮番冲击的云市场中,Salesforce的王权是否依然稳固?Gartner 在CRM市场分析报告中提出：分析、机器学习和AI是CRM未来的发展方向，将在未来三年内彻底改变CRM。期待王权再续的Salesforce，开始向AI出击，以奠定领先根基。2017年，Salesforce推出AI产品Einstein，这是CRM领域首款全面AI产品，让CRM出现了本质改变。过去都是“人为系统服务”，需要人不停地向CRM中输入数据。而今天Salesforce的CRM，是直接从社交网络中抓取各类数据，生成图表，反向驱动销售工作，不再需要录入数据，而是与社交网络中的客户交流后，系统自动输出图表。 Salesforce由此迈入大数据的新阶段，以大数据为基础，让AI为企业赋能。比如，Salesforce Einstein具有以下特性: 一、数据就绪，无需准备数据或管理模型，只需将数据放入 Salesforce 即可；二、建模就绪，多租户自动机器学习，意味着将为组织自动匹配恰当的模型；三、生产就绪，无需开发运营，属于同样可信赖的Salesforce平台，具有模型管理和监控工具。凭借全面AI产品Einstein，企业客户可升级为AI优先的公司，提高智能化程度，并更好地预见客户需求。美国银行已经部署了Salesforce Einstein功能，把Einstein推广给全公司2000名面向客户的财务顾问，希望能够“大规模提供个性化服务”以及“创造具有差异化的客户体验”。在Salesforce成立的第一个10年，也就是1999-2009年，SaaS是一种尚未完全验证的商业模式，但Salesforce通过不断探索，打下了主业基础。这让Salesforce穿越了2000年的互联网泡沫和2008年的金融危机，并在2010年市值突破百亿美金，第一次成为受到资本市场认可的大市值公司。这个阶段的成功，主要是由“新产品模式+新商业模式”奠定的。第二个十年，Salesforce开启外延式战略，围绕产品和技术两大逻辑主线进行并购，综合实力持续增强。回望封王之路，Salesforce牢牢把握住了每一个爆发节点，并结合市场特征不断尝试新的变革。一路带领CRM单一产品，从工具走向平台，走向社交网络，如今又走向AI。巨头正是这样，一步步演化而来。

Catharina 发表于2020-05-11 11:17:42 2020-05-11 11:17:42 最后回复 ecstatic 2020-05-23 10:05:42
4578 1

网络大数据
[AI大赛] 2020中国高校计算机大赛 · 华为云大数据挑战赛

大赛为每位参赛者提供了100元代金券，极少数参赛者代金券消耗过快，针对这部分参赛者，组委会考虑额外再提供一张代金券，参赛者需要经过申请且通过审核才能获取。如组委会经过核查发现有谎报信息的参赛者，将取消其资格。申请条件：1、已报名2020中国高校计算机大赛·华为云大数据挑战赛。2、参赛者领取的代金券余额不足30元。申请方式：即日起，请在2020/5/30 15:00之前在本帖回帖反馈如下信息，经过审核通过后，将陆续配发代金券。注意：以下信息务必按照要求、准确填写，否则会影响审核，而无法配发代金券。1、华为云账号：123xxx2、账号ID：d6219exxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx3、手机号：188888888884、本次大赛代金券剩余金额截图（截图需包含华为云账号）：如何获取相关信息：1、华为云账号：点击此处，在弹出页面，如下图示位置即为华为云账号。2、账号ID：点击此处，在弹出页面，如下图示位置即为账号ID。3、大赛代金券剩余金额截图：点击此处，进入官网首页，鼠标悬浮在右上角账号处，点击打开“费用中心”。4、进入“费用中心”后，点击左侧的“优惠券折扣-优惠券”，在如下图示位置即可查看代金券剩余金额。

HWCloudAI 发表于2020-04-28 15:34:16 2020-04-28 15:34:16 最后回复 HWCloudAI 2020-07-20 19:47:16
13813 14

大赛大数据
[技术干货] 【济南HDZ】HiLens AI 开发平台应用直播交流会-录播回放及公测申请

2020年4月25日下午14:00，济南HDZ 将举办一场，《 HiLens AI 开发平台应用直播交流会》并抢先发布HiLens Studio 新功能先以开启新功能公测申请，报名链接：https://275956.weixin.drip.im/form/detail/8e6d1a6f-ef97-4bf6-aa98-666acb6e19e6?special=275956<公测说明>1、申请公测后，需人工审核，请您认真填写申请表，谢谢~2、五一假期后开始筛选，约1周后会公布结果，请大家关注HiLens论坛公告。3、申请时间，截止4月27日。录播回放观看地址:https://huaweicloud.bugu.mudu.tv/watch/6oelzrxm已下是本次直播的胶片：Studio----------目前【济南HDZ】开发者社区正式成立！！！志愿者火热招募中，期待您的加入~发感兴趣的朋友欢迎加入到HDZ的大家庭！！！济南HDZ报名通道：https://333786.weixin.drip.im/form/detail/281cf3d6-daef-42d3-9516-b676be247897?special=333786【济南HDZ 公众号】HDZ社区—携手全球开发者共建开放、创新、多元的开发者社区组织 HDZ是Huawei Developers Zone的英文缩写，是华为开发者生态面向全球开发者建立开放、创新、多元的开发者社区组织。致力于帮助开发者学习提升、互动交流、挖掘机会，推动ICT、互联网等产业生态的建立和发展。对云计算、IoT、人工智能、5G、区块链、鲲鹏、昇腾、软件开发与运维、开源等各技术领域感兴趣的开发者、软件工程师、创业者、运营人、产品人、大学生、老师等都可以参与到HDZ。 HDZ秉承开放、创新、多元的社区文化，完全由各地HDZ组织者、志愿者自发组建和领导。华为公司不直接参与HDZ组织建设和领导，只按需对HDZ社区活动提供必要的方向指导、资源支持、活动支撑等，并为各地HDZ组织者提供与全国组织者互动交流的机会。【全国各城市核心组织者报名通道】

tiffanybly 发表于2020-04-25 17:28:04 2020-04-25 17:28:04 最后回复 tiffanybly 2020-04-25 17:28:04
3955 0

华为HiLens 视频直播区块链大数据

推荐直播

热门标签

Java Python 数据结构 Linux 数据库机器学习网络任务调度 MySQL JavaScript