-
上回谈到合规模型使用了外采的软件包,有部分软件包是国外厂商开发的,在国内鲲鹏平台上从没有编译运行过。这些软件包需要先分析出软件包清单和迁移准备。 软件包清单通过扫描,发现合规模型有15个软件包需要迁移,迁移准备期间需要做镜像。这个镜像包括SWR文件和软件依赖包,这两部分构成同一个Docker镜像,进行一次迁移。15个软件包就打包15个镜像。 打包好镜像后还有一个工序,就是进行硬件平台调试。为了平台测试,提前规划了测试指标和测试参数选择。 软件包主要是合规模型的核心功能调用,因此就上回提到的五个核心场景,分别定义了测试指标。从合同识别功能分析,每张图片识别不超过秒级;合同自动识别涉及文本比对,需要查数据库,因此不超过分钟级;合同内容风险识别,根据标注的条数而定,标注需要靠模型辅助,由于风险点浩如烟海,因此风险点标注是毫秒级;合同外规内化,涉及另一个模型调用,内外规搜索,也不超过分钟级;最后合同模版自动生成,这是一个合成的工作,因此各种测试指标都通过后,才能进入这个环节,不超过分钟级。 定义了测试指标后,还有一个测试参数选择的问题。平台节点只有一个,单机配置鲲鹏平台,双卡710,相当于0.8A100的计算能力,CPU是麒麟。 在实验室,测试数据一般达到7T左右,但是为了测试效率,只能输入1T测试,不然计算能力承载不起模型运算。
-
上回谈到合规模型使用了外采的软件包,有部分软件包是国外厂商开发的,在国内鲲鹏平台上从没有编译运行过。这些软件包需要先分析出软件包清单和迁移准备。 软件包清单通过扫描,发现合规模型有15个软件包需要迁移,迁移准备期间需要做镜像。这个镜像包括SWR文件和软件依赖包,这两部分构成同一个Docker镜像,进行一次迁移。15个软件包就打包15个镜像。 打包好镜像后还有一个工序,就是进行硬件平台调试。为了平台测试,提前规划了测试指标和测试参数选择。 软件包主要是合规模型的核心功能调用,因此就上回提到的五个核心场景,分别定义了测试指标。 从合同识别功能分析,每张图片识别不超过秒级;合同自动识别涉及文本比对,需要查数据库,因此不超过分钟级;合同内容风险识别,根据标注的条数而定,标注需要靠模型辅助,由于风险点浩如烟海,因此风险点标注是毫秒级;合同外规内化,涉及另一个模型调用,内外规搜索,也不超过分钟级;最后合同模版自动生成,这是一个合成的工作,因此各种测试指标都通过后,才能进入这个环节,不超过分钟级。 定义了测试指标后,还有一个测试参数选择的问题。平台节点只有一个,单机配置鲲鹏平台,双卡710,相当于0.8A100的计算能力,CPU是麒麟。 在实验室,测试数据一般达到7T左右,但是为了测试效率,只能输入1T测试,不然计算能力承载不起模型运算。
-
上回在鲲鹏平台上搭建了合规模型的代码和SO库,同时利用port advisoring工具进行依赖库扫描并建仓。除此之外,在测试节点上还有测试要完成。这是整体迁移的部分,合规模型依赖软件包。 这些软件包从而何来,为何存在于合规模型? 要说明这个问题,要从合规模型的业务场景说起。合规模型是用于JJ银行法审合同阶段,由于智能法审功能需要依赖专家经验,尤其这几个环节:合同识别、合同比对、合同关联审核、合同模版生成。合同识别是对这类合同进行自动判别,是文本语义分析环节。得到合同文本内容后,需要对合同历史版本进行比对,分析差异。接着对评审点进行审核,这是对评审点词条进行核对,如果评审点内容跟法务库里的词条产生冲突或不符,则产生合同异常信息。如果没有异常信息,对这类合同生成一个合同模版并留白。 在这一系列动作之前,还有打标签的环节。 这些业务场景如此复杂,证明了智能法审的功能比如牵涉很多功能点,处理多模态数据,比如图片、扫描件、电子文档、影印件........这些数据处理,会引入功能繁杂的软件依赖包。 例如合同比对,当时曾测试了两种方案,采用MICROS的插件,这是专门针对office软件的插件,比对效果非常好,就是目前MICROS软件里的比对功能专业插件,但缺点是不能定制改写,只适合office系列软件文档。随着GCH要求,银行逐步采用wps等办公软件,这个插件不兼容。 如何将这些插件软件包进行鲲鹏迁移,我们下次接着聊。
-
Unixbench子项excel执行出错退出,单独执行子项其默认参数类似于cd unixbench-5.1.3UB_BINDIR=./pgms ./pgms/execl 30默认参数30 会执行失败,调低参数就可以运行,具体可运行参数不固定exgear版本4.0.1包版本3124guestos:ubuntu-2004unixbench版本:5.1.3
-
案例简介: XX是华为云全球XX客户, 海外AI标杆项目。自成立以来,XX致力于以人工智能为中心,通过软硬结合产品落地到生活场景,来打造下一代的人机交互方式。2019年10月,XX以XX亿元位列《2019胡润全球独角兽榜》第XX位。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。对于后续同类型诉求有极大的借鉴意义。方案描述:本次迁移面对对象为T云存储COS、Ucloud存储US3、Oracle云存储OCI、A3云存储OSS等多个云平台。‘T云存储COS为客户主要数据存储环境,迁移涉及的数据量为700TB,采用OMS进行迁移,与OMS产品侧沟通后OMS并发数由5提升至20进行迁移,同时搭建RDA环境,同步进行T云存储COS数据迁移。Ucloud存储US3为客户业务急需的数据,数据量100TB,因客户桶在乌兰察布region,OMS及RDA迁移工具不支持Ucloud乌兰察布region数据迁移,采用第三方工具Rclone并购买共享带宽并提升至10Gbps, Ucloud带宽限制1Gb,经沟通最高提升为3Gb。Oracle存储OCI迁移涉及的数据为25TB,华为云无迁移先例,现有工具不支持迁移,采用第三方工具Rclone进行迁移。A3云存储OSS迁移涉及的数据为小文件,共14TB约1.1亿对象,采用华为云工具OMS进行迁移。
-
案例简介: XX是目前全球UGC赛道最大的中国游戏公司,在全球拥有XX万注册用户。 现网以AWS+GCP部署为主,目前在AWS主要为业务大厅服源站以及数据收集和分析功能,频繁跨国访问数据库数据, GCP主要为业务战斗服,包含服务器和流量业务。 涉及AWS 美西/宁夏Region迁移至华为云新加坡Region,XX版本,XX个实例,XX+数据,JDBC(MairaDB),承载核心用户、财务、日志等关键信息,对数据完整性要求严格,需多层次保证迁移数据完整。 方案描述【最佳实践】:① 数据库流量回放: 目的:验证客户业务与GaussDB(for Mysql)的功能/特性适配性,及时发现不兼容SQL并进行对应性改造,减少客户业务上云的业务损失;依据提升回放速度和并发数,结合云监控指标,间接匹配GaussDB(for Mysql)的性能适合客户的业务指标。 流程:客户在AWS启动Aurora Mysql的数据库审计日志(会涉及重新启动数据库服务)并持续24H,并将产生的日志放置S3桶中;一线TD采用OMS将审计日志迁移至OBS;由于DRS只能承载200个文件分析(迭代版本更新后无限制)多余的日志文件在跳板机进行下载整合到一起(copy *.txt log.txt),重新上传OBS后,采用DRS的流量回放功能进行识别GaussDB(for Mysql)的特性兼容性,并由研发经过分析后生成流量回放报告;将报告中改造建议发送至客户,将不适配的对象和业务SQL进行改造。② JDBC适配&业务改造: 本项目客户采用的是MariaDB的JDBC链接,版本和GaussDB(for Mysql)不兼容,升级版本后改造,同时客户业务SQL中涉及的列名被GaussDB(for Mysql)系统占用,需进行更名改造。③ 数据迁移: DRS服务器地址变更频繁,需迁移用户(user@ip)变更频繁,采用Nginx反向代理固定迁移用户。数据校验方式: 主键表(动态校验);无主件表(核心表做行数校验);财务数据核心表采用脚本对最新1000W条数据校验;核心表数据抽数随机校验(人工校验:表头、中部、表尾各取1000条数据进行。
-
案例简介: XX是一家中国手机制造商,2022年营收XX亿,2022年出货量XX亿部,其中智能手机约XX万,根据IDC统计数据,全球市场占有率XX%,排名第XX;非洲市场占有率XX%,排名第XX;印度市场占有率XX%,排名第XX;孟加拉国市场占有率XX%,排名第XX。 方案描述:迁移前准备:• 源集群与目标集群网络互通;迁移原理:• 元数据,历史数据采用快照方式迁移;• 增量数据采用export+import方式迁移;迁移步骤: 1、 源端通过命令给需要迁移的表打快照; 2、 迁移快照数据文件到目标集群HDFS; 3、 在目标端使用快照文件恢复表结构和表数据; 4、 将源端增量数据使用export导入目的端HDFS上,数据校验: 手动执行sql来校验目的端的与源端数据的一致性;
-
项目背景: 根据规划部署于2006年10月提出的初步发展大纲建议,XX发展计划将以“崭新的海滨,汇集历史文化,绿茵,体育及旅游特色的新焦点作为规划主题,无需填海,共分为X大规划分区;XX城中心、XX体育园、混合用途区、都会公园、跑道休闲区、旅游及休闲中心; 2009年,香港政府开始聘请顾问对XX机场旧址进行改造和商业场馆建设与运营的技术性研究;2018年底,政府公布新世界旗下子公司XX(XX有限公司)中标;2020年11月20日,我司的第一份合同激活,启动交付。方案描述:解决方案:HCSO8.1.3版本,DWS在业务不受影响的情况下完成迁移迁移步骤:1.原主备集群C1/C22.创建迁移后的集群C3/C43.C1/C2解除容灾,C1/C4创建容灾,数据同步4.C1/C4主备切换5.C4/C3创建容灾,数据同步6.C4/C3主备切换7.业务平稳后,删除原主备集群备注: 1. 全量数据同步期间,业务是可以正常接入生产集群; 2. 新老集群关系切换期间,需要停止业务保证数据一致性。这个步骤 生产集群会发起增量数据同步到容灾集群,然后切换生产集群和 容灾集群的关系。、 3. 确认完成迁移后,新集群(原容灾集群)开始接入业务。
-
案例简介: 客户考虑到平台稳定性以及应用的高可用性,决定对平台进行升级到HCS 8.2.0版本,使用CMS迁移工具,帮助客户将6.5.1region的存量业务VM搬迁到HCS 8.2.0Region。原HCS651主要承载用户生产数据库、进料系统、厂区安全业务、动环软件、物流、远程计量等; HCS 8.2.0为新建环境,没有承载客户业务。需要客户、华为、赛迪共同完成升级和验证工作。方案描述:❶ 关联虚拟机在新老Region的基础信息 ❷ 复制并关联VPC/安全组/VFW等网络资源❸ 虚拟机迁移前预检测及整改 ❹ 搬迁EVS卷数据 ❺ 一键重建/回滚目标虚拟机 ❻ 按需配合调整跨Region三层互联 ❼ L4~L7网络服务重新配置 ❽ 按需配合调整云外物理路由
-
案例简介: XX目前数据库采用自建的MySQL、MongoDB。客户希望业务全面上云替换,现将采购少量部署在测试区进行业务验证。目前客户现网云平台采用全栈华为硬件以及华为云,预计涉及数据库软件服务订货价格XXw+。本次试验局验证主要验证DDS云服务基础功能与数据迁移功能。方案描述: 源端环境:自建MongoDB;数据大小100G; 数据迁移:使用DRS全量+增量的方法迁移数据 数据核对:使用DRS自带数据核对工具,对迁移数据条数进行数据核对,数据条数核对上就默认迁移完成 问 题解决:通过查询技术手册解决客户问题,如果有不能解决的问题就通过向开发需求提单,通过开发来解决客户问题。 DDS技术手册:文档数据库服务(DDS) 2.22.07.210 使用指南(for 华为云Stack 8.2.0) 01 - 华为 (huawei.com)
-
案例简介:XX集团,全球领先的智能物流平台,是国内首家基于云计算、大数据、移动互联网和人工智能技术开发的XX公司,是公路物流领域高新技术综合应用的典型代表XX平台服务的认证司机用户超XX万人,认证货主用户超XX万人,集团业务覆盖全国XX个主要城市。年度撮合成交规模达到XX元,覆盖线路数量超过XX条,此案例主要介绍Kylin组件搬迁。迁移方案:Økylin依赖的所有hive表数据使用CDM工具迁移 Økylin元数据hbase表kylin_metadata数据使用阿里LTS迁移,其中存放了kylin系统级、project级、cube级、job级等各个级别元数据 Ø根据腾讯云环境信息构建历史segment Ø华为云调度系统定时触发华为云Cube构建 Ø查询华为侧结果集数据,数据一致性校验割接关键步骤:Økylin依赖所有hive表数据迁移Økylin构建历史segment预计算数据 Ø调度任务所有kylin相关任务正常执行 Ø双云预计算数据一致性校验Ø业务正常查询华为云侧kylin预计算数据Ø业务切换查询地址为华为侧地址回滚步骤:Ø切换到华为云地址后,如出现短时间无法解决问题,业务切换查询地址为腾讯侧地址XXkylin迁移&割接方案:cid:link_0使用LTS/BDS迁移Hbase指导:cid:link_1
-
案例简介: XX成立于2015年,是目前全球UGC赛道最大的中国游戏公司,在全球拥有XX万注册用户,覆盖美国、新加坡、港澳台、法国、阿联酋、巴西等XX个国家。目前客户现网以AWS+GCP部署为主,目前在AWS一年消耗XXWUSD,主要为业务大厅服源站以及数据收集和分析功能,包含大数据、数据库等业务,GCP一年消耗XXWUSD,主要为业务战斗服,包含服务器和流量业务,本次迁移客户有待迁移Redis实例XX个。数据迁移:1、确认客户业务停止,无应用访问Elastic Cache;2、在AWS源端控制台Elastic Cache导出全量备份文件;3、通过公网传输至华为云,检查备份文件MD5码前后是否一致,使用Redis-Shake工具将数据恢复到GeminiDB Redis中。4、进行数据校验,对GeminiDB Redis进行key值校验;5、数据校验通过后,应用链接GeminiDB Redis实例开始对外提供业务。数据校验:1、查询迁移后源端和目的端内存占用量是否一致;2、使用info keyspace语句查询并对比源端和目的端的key数量是否一致;3、使用脚本随机多次进行抽样内容校验。(客户数据部分具有时效性,可能存在因源端数据过期后源端和目的端前后数据不一致的问题,需要手动查询不一致的数据是否因数据过期引起)。回退方案(A-B-A):1、AWS侧创建Elastic Cache备用实例,承接回退实例数据2、配置GeminiDB Redis到AWS EC2的DRS全量链路,EC2与Elastic Cache配置SSH隧道;3、启动DRS任务,全量完成后,进行数据校验;4、数据校验通过后,应用修改数据库链接为AWS Elastic Cache备用实例。
-
案例简介: XX公司成立于2016年,短短六年间,XX依托于自身在人工智能、大数据领域的技术优势,和丰富的教学资源,已占领法考在线教育领域XX以上的市场份额,用户数量全国第一。近年业务也在向CPA和英语在线培训领域快速发展。 目前XX业务全量部署在A3云上,云空间XX万左右。 此次迁移是XX A3部署的法考、CPA、官网等业务系统。 方案描述:平台部署:网络打通;华为各云服务开通;自建服务的搭建和对接业务表的创建:在DWS里面进行业务模型表的重建(分布列、分区列、冷热策略、行列存储,业务逻辑主键)数据迁移:离线Hive数仓各层数据迁移(客户自己通过回退的方式把数据会退到PoloDB中,再通过gaussdb同步到DWS);实时听课数据通过DMS接进,然后通过flink消费,最后落进DWS。由于kudu数据不大客户自己写进DWS; PoloDB全量+增量数据通过gaussdb同步到DWS。历史数据的处理:数据的打宽,清洗作业迁移:设计所有业务的数据打宽,清洗逻辑重构,DGC作业的配置及调度数据以及性能的校验:1.历史数据的验证.2.实时增量数据的验,验证范围(所有表)3.实时流程性能验证,4.主要业务场景验证。5.Polo到gaussdb后记录数据量验证。割接:停止往Polo写数据,切换到gaussdb ,埋点数据写进DMS,停止阿里的离线作业,DWS同步正常,flink作业验证正常,观察业务运行状态,核对数据正确性,完成业务割接。
-
案例简介:XX公司成立于2015年,是目前全球UGC赛道最大的中国游戏公司,在全球拥有XX万注册用户,覆盖美国、新加坡、港澳台、法国、阿联酋、巴西等XX个国家。目前客户现网以AWS+GCP部署为主,目前在AWS一年消耗XXWUSD,主要为业务大厅服源站以及数据收集和分析功能,包含大数据、数据库等业务,GCP一年消耗XXUSD,主要为业务战斗服,包含服务器和流量业务,本次迁移包含DynamoDB(XX张表,XTB)需要跨云平台迁移。方案描述:数据迁移:1、在华为云申请ECS主机用于安装DynamoMigration;2、配置DynamoMigration参数文件;3、启动DynamoMigration进行全量迁移;4、全量迁移完成后,对数据进行抽检,检查数据一致性校验;5、数据校验通过后,停止DynamoMigration服务,业务连接华为云GaussDB for Cassandra实例开始对外提供业务。回退方案:1、AWS侧创建备用表,承接回退数据;2、配置DynamoMigration配置文件,建立华为云-AWS全量迁移链路;3、待全量迁移完成后,对数据一致性进行校验4、数据校验通过后,停止DynamoMigration服务,应用修改数据库链接为AWS 实例备用表,对外提供业务。
-
本文档包含以下四部分:1、XX应用系统架构和关联关系调研模板2、XX应用系统资源详细清单调研模板3、应用上云迁移调研访谈提纲和调研表汇总4、项目调研总结模板注:本文档全部或部份内容仅用于本迁移项目,供客户授权的华为工程师和客户内部授权人员参考,严禁用于其他任何用途或交与第三方。
推荐直播
-
DeepSeek 深入浅出白话解读
2025/02/12 周三 17:00-18:00
Tim-华为云中国区AI解决方案总监
DeepSeek的来龙去脉,为什么DeepSeek那么强?哪些是它的领先优势?它是怎么发展过来的?在华为云上能不能用到DeepSeek?本节课将一一解读。
回顾中
热门标签