-
我的Flink作业提交报错了,我咋知道哪里有问题,提工单处理太慢了。
-
【功能模块】flink执行yarn-session报错【操作步骤&问题现象】1、MRS版本为8.1.0.1flink版本为1.12.0根据上个版本的flink组件配置进行配置之后,执行命令yarn-session报错,具体报错信息如下:2、完整信息如文档所示【截图信息】【日志信息】(可选,上传日志内容或者附件)beautiful idea 发表于2021-05-31 15:19:30 2021-05-31 15:19:30 最后回复 yd_71702039 2023-10-25 10:58:325655 6
-
【功能模块】DLI Flink【操作步骤&问题现象】请教下Flink作业重启后,如何保证不丢失数据?
-
编译环境虚拟机服务器 KVM Virtual Machine 虚拟机配置:aarch64架构 、 32G内存 、 16核 、300G磁盘空间 虚拟机操作系统: Linux version 4.19.90-2009.3.0.0045.up1.uel20.aarch64 (abuild@armbuild-02) (gcc version 7.3.0 (GCC)) #1 SMP Sun Oct 11 16:12:59 UTC 2020 软件版本:flink-1.11.3 版本获取方式https://github.com/apache/flink/archive/release-1.11.3.tar.gz 参考编译指南和问题 编译完成Jar包中还有x86 so依赖Flink移植指南: https://support.huaweicloud.com/prtg-apache-kunpengbds/kunpengbds_02_0011.html flink 1.11 后就不再与 hadoop 版本绑定,不需要编译特定 hadoop 版本 的 shaded 包 flink 1.11.0 release notes : https://flink.apache.org/news/2020/07/06/release-1.11.0.html 执行如下编译命令: mvn clean package -DskipTests Flink按照迁移指南编译完还含有x86 so依赖,通过checkSo结果如下: 一些问题可能导致下载的jar包不是从鲲鹏仓库中下载的。这几个包分别对应的jar是:scala-compiler-2.12.7.jar flink-shaded-netty-4.1.39.Final-11.0.jarscala-compiler-2.11.12.jar 问题处理方案: 手动从华为鲲鹏仓库中下载这些jar包,然后替换本地mvn仓库中jar ,下载链接分别如下:https://mirrors.huaweicloud.com/kunpeng/maven/org/apache/flink/flink-shaded-netty/4.1.39.Final-11.0/flink-shaded-netty-4.1.39.Final-11.0.jarhttps://mirrors.huaweicloud.com/kunpeng/maven/com/data-artisans/frocksdbjni/5.17.2-artisans-2.0/frocksdbjni-5.17.2-artisans-2.0.jar https://mirrors.huaweicloud.com/kunpeng/maven/org/scala-lang/scala-compiler/2.11.12/scala-compiler-2.11.12.jar 替换完后从新编译。 编译后通过迁移分析工具分析Flink的jar包已经不包含x86的依赖。 对于link-1.11.3-bin中还有x86的依赖 从华为鲲鹏库中下载如下包替换mvn本地参考中的包:https://mirrors.huaweicloud.com/kunpeng/maven/org/apache/flink/flink-shaded-netty-tcnative-dynamic/2.0.25.Final-11.0/flink-shaded-netty-tcnative-dynamic-2.0.25.Final-11.0.jar 对于flink-python 中的x86依赖需要进行编译: 安装gradle-5.4.1wget https://services.gradle.org/distributions/gradle-5.4.1-bin.zipunzip gradle-5.4.1-bin.zipexport PATH=`pwd`/gradle-5.4.1/bin:$PATH移植beam-vendor-grpcwget https://github.com/apache/beam/archive/v2.18.0.tar.gz -O beam-v2.18.0.tar.gztar -zxf beam8v2.18.0.tar.gzcd beam-2.19.0/vendor/grpc-1_21_0/ vim build.gradle在文件vendorJava所在行之前加入以下内容:repositories { maven { url "https://mirrors.huaweicloud.com/kunpeng/maven/" } mavenLocal() maven { url "https://mirrors.huaweicloud.com/repository/maven/"} } 执行编译gradle build编译好的beam-vendor-grpc-1_21_0-0.1.jar在build/libs目录下安装到本地maven仓库直接替换mvn仓库中的jar包,或者通过mvn install 安装:mvn install:install-file -DgroupId=org.apache.beam -DartifactId=beam-vendor-grpc-1_21_0 -Dversion=0.1 -Dpackaging=jar -DgeneratePom=true -Dfile=build/libs/beam-vendor-grpc-1_21_0-0.1.jar NodeJs问题Runtime web 包是编译时,因为要在线下载一些包,基本都在国外,下载慢或者根本访问不了。1) nodejs 包下载不下来Downloading https://nodejs.org/dist/v10.9.0/node-v10.9.0-linux-x64.tar.gz to /root/.m2/repository/com/github/eirslett/node/10.9.0/node-10.9.0-linux-x64.tar.gz 直接访问 URL 下载,放到 mvn 目录中: 2) npm 执行不动 Running 'npm ci --cache-max=0 --no-save' in /home/venn/git/flink-1.12.0/flink-runtime-web/web-dashboard 直接安装 npm yum install -y npm nodejs npm config set registry http://registry.npm.taobao.org
-
【功能模块】Flink DataStream 数据sink到带有用户名密码的验证的ES集群中报错。【操作步骤&问题现象】1、使用开源的flink-connector-elasticsearch6_2.11 的jar包2、SunCertPathBuilderException: unable to find valid certification path to requested target3、在es客户端那 提示找不到有效的证书路径 我觉得应该是协议错误 我们集群使用curl 方式操作es 需要指定 --tlsv1.2【求助】1.是不是不能使用开源的flink 连接器 sink 到es2.有没有FI集群sink 到ES的样例demo 可以参考一下3.或者帮忙提醒一下从哪里设置tlsv1.2协议 【日志信息】(可选,上传日志内容或者附件)Caused by: org.elasticsearch.client.ResponseException: method [HEAD], host [https://10.28.132.195:24100], URI [/], status line [HTTP/1.1 403 Forbidden]
-
### 1. 首先客户需要在消息通知服务(SMN)中提前创建一个【主题】,并将客户指定的邮箱或者手机号添加到主题订阅中。这时候指定的邮箱或者手机会收到请求订阅的通知,点击链接确认订阅即可。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/115309bfam8vp3yyv4r5kw.png) ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/115321hwisgpf1rr7n760d.png) ### 2. 创建Flink SQL作业,编写作业SQL完成后,配置【运行参数】。 #### 2.1 配置作业的【CU数量】、【管理单元】与【最大并行数】,依据如下公式: ```sql CU数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数 ``` 例如:CU数量为9CU,管理单元为1CU,最大并行数为16,则计算单元为8CU。 如果不手动配置TaskManager资源,则单TM所占CU数默认为1,单TM slot数显示值为0,实际值依据上述公式计算结果为 16÷(9-1)=2。 #### 2.2 勾选【保存作业日志】按钮,选择一个OBS桶。如该桶未授权,需点击【立即授权】。此项配置可以在作业异常失败后将作业日志保存到客户的OBS桶下,方便客户定位故障原因。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/115335hityehyflhl0rmng.png) #### 2.3 勾选【作业异常告警】选项,选择前述步骤创建的【SMN主题】。此项配置可以在作业异常情况下,向客户指定邮箱或者手机发送消息通知,方便客户及时感知异常。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/115348e3rgqch6kip4hcxu.png) #### 2.4 勾选【开启Checkpoint】选项,依据自身业务情况调整Checkpoint间隔和模式。Flink checkpoint机制可以保证Flink任务突然失败时,能够从最近的Checkpoint进行状态恢复重启。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/1153599cjlu8pkb3uprwjp.png) 说明: - 此处的Checkpoint间隔为两次触发Checkpoint的间隔,执行checkpoint会影响实时计算性能,配置间隔时间需权衡对业务的性能影响及恢复时长,最好大于Checkpoint的完成时间,建议设置为5min。 - Exactly Once模式保证每条数据只被消费一次,At Least Once模式每条数据至少被消费一次,请依据业务情况选择。 #### 2.5 勾选【异常自动恢复】与【从Checkpoint恢复】,根据自身业务情况选择重试次数。 #### 2.6 配置【脏数据策略】,依据自身的业务逻辑和数据特征选择忽略、抛出异常或者保存脏数据。 选择【运行队列】,提交并运行作业。 Flink Jar作业可靠性配置与SQL作业相同,不再另行说明。 ### 3. 登录【云监控服务CES】,在【云服务监控】列表中找到【数据湖探索】服务,在Flink作业中找到目标作业,点击【创建告警规则】。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/1154119e7ondsbp7ozbs1r.png) ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/115418ndcpvnfoukbnvvcd.png) ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202104/23/115426a7grpccpa7k7cflq.png) DLI 为Flink作业提供了丰富的监控指标,客户可以依据自身需求使用不同的监控指标定义告警规则,实现更细粒度的作业监控。 监控指标说明见:https://support.huaweicloud.com/usermanual-dli/dli_01_0445.html
-
【功能模块】版本信息BASE 6.5.1 ( 补丁 6.5.1.7 )Flink 6.5.1 ( 补丁 6.5.1.7 )Porter 6.5.1 ( 补丁 6.5.1.7 )Spark2x 6.5.1 ( 补丁 6.5.1.7 )HD 6.5.1 ( 补丁 6.5.1.7 )Elasticsearch 6.5.1 ( 补丁 6.5.1.7 )在flink客户端下执行 命令如下bin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/client/flinkStreamKafka.jar --topic Auto_Agreement --bootstrap.servers ip:21007 --security.protocol SASL_PLAINTEXT --sasl.kerberos.service.name kafka --kerberos.domain.name hadoop.hadoop.combin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/tmpdata/sou1yu/flinkStreamKafka.jar --topic Auto_Agreement --bootstrap.servers ip:21005【操作步骤&问题现象】1、正常导入项目 导入jar包2、source 过执行环境 kinit 过用户 3.在flink客户端下执行 命令如下 都不行(下面命令的ip也正确的 下面只是为了保护一下ip所以处理了一下)bin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/client/flinkStreamKafka.jar --topic Auto_Agreement --bootstrap.servers ip:21007 --security.protocol SASL_PLAINTEXT --sasl.kerberos.service.name kafka --kerberos.domain.name hadoop.hadoop.combin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/tmpdata/sou1yu/flinkStreamKafka.jar --topic Auto_Agreement --bootstrap.servers ip:21005【截图信息】【日志信息】(可选,上传日志内容或者附件)SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/client/Flink/flink/lib/logback-classic-1.2.3.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/opt/client/Flink/flink/lib/flink-dist_2.11-1.7.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/opt/client/HDFS/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.SLF4J: Actual binding is of type [ch.qos.logback.classic.util.ContextSelectorStaticBinder]Starting execution of programuse command as: ./bin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/test.jar --topic topic-test -bootstrap.servers xxx.xxx.xxx.xxx:21005./bin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/test.jar --topic topic-test -bootstrap.servers xxx.xxx.xxx.xxx:21007 --security.protocol SASL_PLAINTEXT --sasl.kerberos.service.name kafka./bin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/test.jar --topic topic-test -bootstrap.servers xxx.xxx.xxx.xxx:21008 --security.protocol SSL --ssl.truststore.location /home/truststore.jks --ssl.truststore.password huawei./bin/flink run --class com.huawei.bigdata.flink.examples.WriteIntoKafka /opt/test.jar --topic topic-test -bootstrap.servers xxx.xxx.xxx.xxx:21009 --security.protocol SASL_SSL --sasl.kerberos.service.name kafka --ssl.truststore.location /home/truststore.jks --ssl.truststore.password huawei******************************************************************************************<topic> is the kafka topic name<bootstrap.servers> is the ip:port list of brokers******************************************************************************************------------------------------------------------------------ The program finished with the following exception:org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 1a0dc0071081418158fbb38a8326a920) at org.apache.flink.client.program.rest.RestClusterClient.submitJob(RestClusterClient.java:261) at org.apache.flink.client.program.ClusterClient.run(ClusterClient.java:490) at org.apache.flink.streaming.api.environment.StreamContextEnvironment.execute(StreamContextEnvironment.java:66) at org.apache.flink.streaming.api.environment.StreamExecutionEnvironment.execute(StreamExecutionEnvironment.java:1510) at com.huawei.bigdata.flink.examples.WriteIntoKafka.main(WriteIntoKafka.java:32) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:529) at org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:421) at org.apache.flink.client.program.ClusterClient.run(ClusterClient.java:430) at org.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:814) at org.apache.flink.client.cli.CliFrontend.runProgram(CliFrontend.java:288) at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:213) at org.apache.flink.client.cli.CliFrontend.parseParameters(CliFrontend.java:1051) at org.apache.flink.client.cli.CliFrontend.lambda$main$11(CliFrontend.java:1127) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1729) at org.apache.flink.runtime.security.HadoopSecurityContext.runSecured(HadoopSecurityContext.java:41) at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:1127)Caused by: org.apache.flink.runtime.client.JobSubmissionException: Failed to submit JobGraph. at org.apache.flink.client.program.rest.RestClusterClient.lambda$submitJob$8(RestClusterClient.java:391) at java.util.concurrent.CompletableFuture.uniExceptionally(CompletableFuture.java:870) at java.util.concurrent.CompletableFuture$UniExceptionally.tryFire(CompletableFuture.java:852) at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474) at java.util.concurrent.CompletableFuture.completeExceptionally(CompletableFuture.java:1977) at org.apache.flink.runtime.concurrent.FutureUtils.lambda$retryOperationWithDelay$5(FutureUtils.java:203) at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760) at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736) at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474) at java.util.concurrent.CompletableFuture.completeExceptionally(CompletableFuture.java:1977) at org.apache.flink.runtime.concurrent.FutureUtils$Timeout.run(FutureUtils.java:795) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)Caused by: java.util.concurrent.TimeoutException ... 8 more
上滑加载中
推荐直播
-
全面解析华为云EI-API服务:理论基础与实践应用指南
2024/11/29 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播给大家带来的是理论与实践结合的华为云EI-API的服务介绍。从“主要功能,应用场景,实践案例,调用流程”四个维度来深入解析“语音交互API,文字识别API,自然语言处理API,图像识别API及图像搜索API”五大场景下API服务,同时结合实验,来加深开发者对API服务理解。
回顾中 -
企业员工、应届毕业生、在读研究生共探项目实践
2024/12/02 周一 19:00-21:00
姚圣伟 在职软件工程师 昇腾社区优秀开发者 华为云云享专家 HCDG天津地区发起人
大神带你一键了解和掌握LeakyReLU自定义算子在ONNX网络中应用和优化技巧,在线分享如何入门,以及在工作中如何结合实际项目进行学习
即将直播 -
昇腾云服务ModelArts深度解析:理论基础与实践应用指南
2024/12/03 周二 14:30-16:30
Alex 华为云学堂技术讲师
如何快速创建和部署模型,管理全周期AI工作流呢?本期直播聚焦华为昇腾云服务ModelArts一站式AI开发平台功能介绍,同时结合基于ModelArts 的实践性实验,帮助开发者从理论到实验更好地理解和使用ModelArts。
去报名
热门标签