• [行业动态] 华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模
            7月9日,以“数据新要素 产业新动能”为主题的大数据产业峰会线上直播正式开启。会上,中国信息通信研究院为通过大数据产品能力评测的产品颁发证书,华为云FusionInsight MRS超大规模单集群以测试项全部满分的成绩顺利通过评估,并成功突破单集群2万节点的超大规模,树立行业新标杆。 中国信通院云大所大数据与区块链副主任姜春宇发布评测证书中国信通院大数据产品评测是国内最权威的大数据评测体系,评测范围涵盖大数据产品的基础能力与性能专项,历经六年的蓬勃发展,大数据产品认证已经成为政企客户选购选型过程中的重要参考,是业界衡量大数据产品质量和能力的重要标准。华为云FusionInsight MRS大数据为政企客户提供一站式企业级大数据平台,满足客户对全栈大数据平台高性能、低成本、灵活易用的诉求,助力企业快速构建海量数据信息处理平台。在本次评估测试中,华为云FusionInsight MRS一次性通过了27个必选用例,此外,在集群无宕机升级、双集群互备、运维监控模块失效及恢复、跨数据库关联操作、在线水平搜索能力等六个可选用例中也实现了一次性通过,100%的通过率使得FusionInsight MRS在本次评估测试中交出了一份完美的答卷。丰硕的成果离不开辛勤的劳作,在整个研发过程中,华为云FusionInsight MRS超大规模单集群的实践也遇到了诸多挑战,华为云大数据研发团队凭借雄厚的研发实力和丰富的探索实践经验,通过以下七个方面实现了业界首个单集群突破2万+规模,具体如下:运维管理架构改造:将原来的集约主从模式调整成了可弹性伸缩的分布式模式,提升了主备模式的监控、告警、配置、元数据存储模块的性能,成功解决了运维管理面临的难题。Superior超级调度器:自研调度引擎,支持35w/s个Container的调度速率,资源利用率达到98%以上,超出开源Capacity的能力近一倍。文件对象管理优化:利用合并单次读写流程中的交互次数、使用改良的数据通信压缩算法、DataMovementTool等技术方案,在确保文件对象管理性能的同时,自动均衡不同命名空间之间的数据,大大降低了集群维护成本。多租户的资源隔离能力:支持标签存储、多服务、多实例、DN分组等方式进行细粒度隔离,提升多租户的资源隔离能力。元数据优化:支持分布式缓存Redis方案,结合分布式锁、缓存黑白名单机制、缓存生命周期管理等技术手段突破了Hive服务的元数据读写性能瓶颈,使得元数据能够在大规模的单集群上规模商用。跨AZ的网络带宽消减:存储上提供感知AZ的文件存储策略,计算上提供感知AZ的任务调度机制,优先在同AZ下进行存储与计算,减少跨AZ的网络带宽消耗。可靠性增强:支持多种机制保障任务的可靠运行,如Hive不中断业务的能力可确保发生异常时任务不中断;Application Master的断点续传能力可记录任务状态,待AM恢复后继续执行。得益于以上七个方面的大数据技术增强与优化,华为云FusionInsight MRS顺利通过信通院分布式批处理平台基础能力测试,节点规模达 21000,成为业界首个单集群突破2万节点的商用大数据产品。华为云FusionInsight已是60+国家,3000+客户的共同选择,广泛布局于政府、金融、大企业、互联网等领域。FusionInsight联合800+合作伙伴,践行“平台+生态”战略,释放政企数据价值,让数据“慧”说话,使企业更智能。相关文章:重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站!直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [行业动态] 重磅发布!FusionInsight 8.0 MRS新特性,更快更安全,小伙伴们快来GET√
    一、FusionInsight MRS概述        FusionInsight MRS是华为FusionInsigth HD企业级大数据平台本与原华为云MRS服务的融合版本,是华为云(Huawei Cloud)、HCS(Huawei Cloud Stack)统一的企业级大数据云服务。FusionInsight MRS完全兼容开源组件接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、高性价比、灵活易用的全栈大数据平台,一站式运行Hadoop、Spark、HBase、Kafka、Flink等大数据组件,帮助企业快速构建海量数据处理系统,发现全新价值点和企业商机。FusionInsight MRS服务拥有强大的Hadoop组件内核团队,历经行业数十万节点部署量的考验,为60+国家3000+客户提供企业大数据服务。 FusionInsight 8.0 MRS产品架构        FusionInsight 8.0 MRS针对开源组件进行了大面积升级,提供最新能力,并在社区基础上对功能、性能、可靠性等方面进行了增强。        FusionInsight 8.0 MRS详细组件列表见下图:二、FusionInsight 8.0 MRS的新特性根据最新的架构,对于主要功能在新版本的增强如下:2.1 Hadoop Core支持从2.7.2版本平滑升级至3.1.1版本;支持RBF的多NameNode部署,缓解主NameNode压力,提升响应速度;支持CPU、内存等多种资源模型调度;Superior调度器提高资源任务调度性能。2.2 流接入与流处理1、支持Flink on Hive,提供FlinkSQL与Hive交互的能力,给离线数仓带来Flink实时流能力,同时大大提高Flink易用性:集成Hive,允许用户使用 SQL DDL 将 Flink 特有的元数据持久化到 Hive Metastore、调用 Hive 中定义的 UDF 以及读、写 Hive 中的表;Batch SQL支持原生分区:写入静态分区、写入动态分区;投影下推;LIMIT 下推;读取数据时的ORC向量化;Table API/SQL扩展,SQL DDL 中支持定义 watermark,扩展SQL DDL的语法,支持创建目录函数、临时函数以及临时系统函数。2、Flink窗口存储空间优化,提升处理性能:针对SlidingEventTimeWindow和SlidingProcessingTimeWindow在保存原始数据时存在的数据冗余问题,对保存原始数据的窗口进行重构,优化存储,使其存储空间大大降低。3、支持Apache Kafka 2.4,并集成社区最新能力:增强的压缩算法,controller处理逻辑优化,broker启动优化等;支持可视化管理界面极大提高运维效率,一键进行分区迁移和扩容等操作;增强监控告警,实时管理Kafka服务、Topic消费生产状态;支持基于磁盘容量、分区数分区的自动分配策略,防止数据倾斜;支持用户连接数限制;支持对用户操作进行审计。2.3 数据仓库1、面向大数据集提供更快的SQL分析能力,包括对HetuEngine、Hive、Spark和CarbonData的提升:HetuEngine支持动态过滤、算子下推、动态分区裁剪、Bloom Filter/Star Tree Index/启发式索引、SMILE传输协议优化、并行查询、基于历史查询性能的SQL优化等特性,性能超越Impala 30%,交互式查询超越Hive 3倍;CarbonData统一索引语法,新增index server,解决Driver侧索引内存太大问题;索引进行预加载,数据入口后即自动预加载,解决首次查询慢问题;新增二级索引和Geo索引,提升查询性能;Hive支持Tez引擎,大大提升了任务运行效率,TPC-DS性能提升50%以上;Hive支持LLAP,提升交互式查询场景的性能;Spark SQL优化:动态分区裁剪、distinct下推、启发式join reorder、runtime filter、scalar subquery合并等特性;Spark新增内置高阶函数,可以直接操作复杂类型,并具备比UDF更好的性能。2、支持事务ACID,提供T+0贴源分析的能力:Hive支持ACID,基于事务表支持数据的INSERT/UPDATE/DELETE/MERGE语句,拓宽业务使用场景;Hive支持增强语法语句、物化视图、CBO等特性;CarbonData支持统一MV语法,新增支持时序数据,支持Parquet/ORC表格;CarbonData支持DB实时数据同步,只追加Delta文件,IO冲击小。对比“文件重写”,更新时间缩短50%-70%;多个Delta文件自动合并,避免小文件问题;CarbonData支持一张表内混合格式:CSV、TXT、JSON、Parquet、ORC、CarbonFile。3、交互式查询数据虚拟化引擎的功能与性能全面提升:全面兼容SQL 92、SQL 2003;提供跨域查询能力;动态资源管理,基于YARN进行动态资源管理,支持多租户隔离和并发处理,支持Capacity/Superior多种调度器。2.4 NoSQL与多模计算HBase升级到了2.2.3版本,Phoenix升级至5.0.0版本,并相互适配;Hbase完善了AMv2,通过降低启动时对ZK的依赖,缩短启动时长以及故障恢复时间;支持Netty RPC,提升请求的并发处理能力;提供RS Group能力,通过Group隔离更好的支持多租户能力。2.5 全文检索Elasticsearch通过提前跳过大量在早期被识别为不会在Top-K结果集中的文档来剪枝,提供更快的Top-K查询性能。提供了功能完备的 high-level REST client,新增易用的search_as_you_type类型,该字段会将同一个字段进行多种类型的分词,满足用户的多样性查询需求。2.6 数据安全1、新增组件Apache Ranger提供一个集中式框架进行审计,认证和授权功能:更好的细粒度访问控制;动态行过滤、动态列脱敏、基于属性的访问控制、支持大量组件对接,支持用户、租户、数据库、表、记录等不同组件不同维度细粒度访问控制;更丰富的策略控制,可以采用Allow/Deny constructs、自定义策略条件/上下文增强器,基于时间的策略,Atlas集成(用于基于标签的策略)等策略;组件审计日志统一管理;安全集群、非安全集群统一使用,并添加初始权限,增加易用性。2、ZooKeeper升级到了3.5.6版本,安全功能增强:支持安全端到端通信加密,保证数据传输可靠性;支持对用户操作进行审计;支持对服务ZNode进行配额设置,防止无限制使用ZooKeeper资源,导致过载。2.7 集群管理1、支持云化部署,提供集群快速发放,弹性伸缩能力,主动运维:一键式集群申请,半小时级发放;支持规则和时间计划两种弹性伸缩的策略;主动运维,故障响应最快时间5分钟。2、运维管理能力增强:提供滚动升级能力,不中断业务,保证业务连续性;提供客户端管理能力,方便跟踪客户端地址,避免升级遗漏;提供配置历史跟踪能力,记录配置修改记录、过期配置展示、非默认值展示能力;支持堆栈采集能力,提高进程异常等问题定位效率;提供维护模式,减少变更操作对运维人员的干扰。2.8 超大集群能力1、支持超大规模集群,单集群节点数可达2万+:改造运维管理架构,利用成熟的分布式组件技术,将原来的集约主从模式调整成可弹性伸缩的分布式模式,实现超大集群的管理运维能力;深度优化Superior调度器,Container的调度速率达到35万个/s,集群资源利用率达到98%以上,超过开源Capacity的能力100%,具备超大规模调度能力。2、支持单集群跨AZ,解决超大集群可靠性问题:提供全组件单集群跨AZ高可靠,单机房故障,核心数据和计算任务不受影响;优化Yarn任务调度能力,减少不同AZ间网络开销。3、全组件支持IPv6协议,解决超大集群持续演进过程中的网络升级扩容的要求:全组件支持IPv6能力,满足国内各行业对IPv6升级改造的进程要求;通过对通信端的验证和对数据加密保护,使数据在IPv6网络上传输更安全。4、支持异构混部,解决超大规模集群建设中设备利旧的问题:支持鲲鹏&X86混合部署;支持混搭操作系统(RedHat/SUSE/CentOS/Euler)。三、总结       FusionInsight 8.0 MRS在6月30日发布全新版本,提供2万超大规模集群能力;HetuEngine提供了高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,大大提升了任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;新增Ranger组件,增强细粒度安全控制,以及提供全新的大数据组件版本,大幅提高政府、金融、运营商、大企业等各行业大数据应用场景能力。        十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长!扫码参与FusionInsight问卷调查 责任编辑:雷文信相关文章:华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级! 华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例 进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站! 直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!+CarbonData,华为云智能数据湖让数据处理飞起来!
  • [交流分享] 【悦识鲲鹏系列 第07期】了解鲲鹏计算大数据解决方案
    鲲鹏计算大数据解决方案针对大数据组件优化数据处理流程,提升计算并行度,充分发挥鲲鹏系列芯片的并发能力,给客户提供更高的大数据业务性能。鲲鹏计算大数据解决方案文档获取地址:https://support.huaweicloud.com/kunpengbds/kunpengbds.html