spark_标签_开发者

博客(5.7k)
视频(2)
论坛(0)
云声(0)
代码示例(0)

[生态对接] spark --jars提交依赖冲突，有没有办法忽略集群中的依赖。只使用fat-jar和--jar提供的

我最近开发了一个maven项目，想使用spark读取/写入greenplum的数据，但是由于jdbc的传输速度限制。所以想采用greenplum-spark connect这个连接器。当我使用--jars将项目和这个依赖包一起提交上去的时候出现了jar包冲突报错:classnotfound。同时自己搭建了一套开源集群，相同的步骤 spark读取/写入greenplum 并且也使用这个连接器--jars提供第三方依赖包，正常读取数据。所以我想有没有办法忽略集群中的依赖。只使用fat-jar和--jar提供的

yd_235664071 发表于2024-03-13 14:54:40 2024-03-13 14:54:40 最后回复晋红轻 2024-03-13 16:30:13
32 2

spark Hive 性能优化 PostgreSQL 大数据
[生态对接] 使用greenplum-spark connect连接器遇到的坑

我最近开发了一个maven项目，想使用spark读取/写入greenplum的数据，但是由于jdbc的传输速度限制。所以想采用greenplum-spark connect这个连接器。当我使用--jars将项目和这个依赖包一起提交上去的时候出现了jar包冲突报错:classnotfound。所以我又尝试使用jarjar.jar修改相应的包名但是现在又出现了新的问题，代码中的postgresql依赖找不到对应的class类名报错。既然外部没办法搞定就从内部项目入手 …… 由于这个依赖属于第三方并不是maven仓库官方提供所以没法加载进入项目中。我尝试加入私有仓库然后再放入我的本地项目中使用maven-shade-plugin将类名包名重定向。不知道是不是第三方依赖的原因，只要提交到cluster上后就会显示找不到类，相当于没有加上这个greenplum-spark依赖。请各位大佬看看是什么原因。我这边在本地用idea或者Local模式提交都是可以成功的

yd_235664071 发表于2024-03-11 16:58:07 2024-03-11 16:58:07 最后回复 yd_235664071 2024-03-12 10:26:37
35 3

spark FusionInsight 大数据数据库
[运维管理] FusionInsight HD 6513 在线升级 FusionInsight HD 6517版本需要多长时间？怎么评估的？

FusionInsight HD 6513 在线升级 FusionInsight HD 6517版本需要多长时间？怎么评估的？

pack 发表于2024-01-04 17:15:55 2024-01-04 17:15:55 最后回复晋红轻 2024-01-15 15:47:57
92 2

hdfs spark FusionInsight Kafka
[运维管理] FusionInsight HD 6513升级 FusionInsight HD 6517版本，是否支持部分组件(如kafka 、zookeeper)在线升级，其他组件离线升级？

FusionInsight HD 6513升级 FusionInsight HD 6517版本，是否支持部分组件在线升级，其他组件离线升级？

pack 发表于2024-01-04 10:26:47 2024-01-04 10:26:47 最后回复 pack 2024-01-04 17:24:20
59 3

hdfs spark HBase FusionInsight Kafka
[问题求助] hudi静态表的timeline文件无法自动归档，导致hdfs小文件过多

mrs320版本，hudi0.11。场景是静态表离线跑批。使用spark-sql每天向hudi cow表里insert select 0条数据，timeline文件无法archive，导致小文件越来越多希望大佬给个解决方案spark-sql复现步骤如下：--创建源表CREATE TABLE emp_test ( empno int, ename string, job string, mgr int, hiredate string, sal int, comm int, deptno int, tx_date string)using hudioptions( type='cow' ,primaryKey='empno' ,payloadclass='org.apache.hudi.common.model.OverwriteNonDefaultWithLatestAvroPayLoad' ,preCombineField='tx_date' ,hoodie.cleaner.commits.retained='1' ,hoodie.keep.min.commits='2' ,hoodie.keep.max.commits='3' ,hoodie.index.type='SIMPLE');insert into emp_test values(7369,'SMITH','CLERK',7902,'1980-12-17',800,100,20,'2022-11-17'),(7499,'ALLEN','SALESMAN',7698,'1981-02-20',1600,300,30,'2022-11-17'),(5233,'ANDY','DEVELOPER',9192,'1996-05-30',5000,3000,10,'2022-11-13');--创建2表create table emp_test2 using hudioptions ( type='cow' ,primaryKey='empno' ,payloadclass='org.apache.hudi.common.model.OverwriteNonDefaultWithLatestAvroPayLoad' ,preCombineField='tx_date' ,hoodie.cleaner.commits.retained='1' ,hoodie.keep.min.commits='2' ,hoodie.keep.max.commits='3' ,hoodie.index.type='SIMPLE' ) as select * from emp_test where 1<>1;--初始化2表insert into emp_test2 select * from emp_test;--2表每天无新增数据insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;insert into emp_test2 select * from emp_test limit 0;观察hdfs2表/.hoodie下timeline instant文件一直新增，不归档/archived(无归档文件)

yd_267301427 发表于2023-12-04 10:33:33 2023-12-04 10:33:33 最后回复雨落无痕 2023-12-22 15:42:02
40 2

MapReduce服务 MRS spark
[分享交流] 基于华为云的Spark集群环境搭建

Hadoop集群搭建1、环境配置本文搭建Hadoop平台，在master主机的/usr/local目录下新建hadoop文件夹，将下载好的hadoop压缩包上传到该文件夹中，使用如下命令进行解压：# cd /usr/local/hadoop# tar -zxvf hadoop-2.7.1.tar.gz修改配置文件/etc/profile，添加如下配置：export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.1export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin输入命令使配置文件生效：# source /etc/profile2、修改相关文件修改master主机中Hadoop的如下配置文件，这些配置文件都位于/usr/local/hadoop/hadoop-2.7.1/etc/hadoop目录下。修改slaves文件，这里让master节点主机仅作为NameNode节点使用。slave01slave02修改hadoop-env.sh export JAVA_HOME项：export JAVA_HOME=/usr/local/java/jdk1.8.0_202修改core-site.xml：<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/hadoop-2.7.1/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property></configuration>修改hdfs-site.xml：<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.http-address</name> <value>master:50070</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:50090</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/hadoop-2.7.1/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/hadoop-2.7.1/hdfs/data</value> </property> </configuration>修改mapred-site.xml：将mapred-site.xml.template文件内容复制到mapred-site.xml，再修改mapred-site.xml文件。相关命令和修改内容如下：# cd /usr/local/hadoop/hadoop-2.7.1/etc/hadoop# cp mapred-site.xml.template mapred-site.xml<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>修改yarn-site.xml：<configuration>  <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property></configuration>3、slave节点配置Hadoop通过如下命令将master主机的hadoop目录拷贝给slave01和slave02。# scp -r /usr/local/hadoop/ root@slave01:/usr/local/hadoop/# scp -r /usr/local/hadoop/ root@slave02:/usr/local/hadoop/再配置/etc/profile文件中Hadoop相关环境变量即可。4、启动Hadoop集群在master主机中输入如下命令即可启动Hadoop集群：# cd /usr/local/hadoop/hadoop-2.7.1# bin/hdfs namenode -format# sbin/start-all.sh注：关闭Hadoop集群命令如下，尽量保证服务有开就有停，可以避免很多问题出现。# sbin/stop-all.sh5、查看Hadoop管理页面浏览器输入http://master公网IP:50070即可访问到如下Hadoop管理页面。

yd_288691922 发表于2023-11-14 10:46:55 2023-11-14 10:46:55 最后回复 yd_288691922 0
13 0

华为云 spark
[最佳实践] 利用Spark-mllib进行聚类，分类，回归分析的代码实现(python)

利用Spark-mllib进行聚类，分类，回归分析的代码实现(python)前提条件安装python3环境，以及需要连接的MRS集群环境下载python3 源码编译tar zxvf Python-3.8.0.tgz cd Python-3.8.0 mkdir -p /usr/local/python-3.8.0 ./configure --prefix=/usr/local/python-3.8.0 -enable-optimizations --with-ssl make && make install 编译 ln -s /usr/local/python-3.8.0/bin/python3 /usr/bin/python3 ln -s /usr/local/python-3.8.0/bin/pip3 /usr/bin/pip3 ll /usr/bin/python*上传加载数据集创建文件file.csvfeature1,feature2,feature3,label 1.2,3.4,2.8,0 2.1,4.5,1.7,0 3.5,2.8,6.1,1 4.2,5.1,3.9,0 5.3,1.9,2.2,1将该文件上传至hdfshdfs dfs -mkdir -p /tmp/sandboxhdfs dfs -put file.csv /tmp/sandbox在这个示例中，数据集有四个特征列（feature1、feature2、feature3）和一个标签列（label）。每一行代表一个数据样本，特征列的值用逗号分隔，最后是标签的值。这个数据集可以用于分类或回归任务的训练和测试，以下是一些可能的使用方式：分类任务：加载数据集：使用 Spark 的数据加载功能读取 file.csv 文件，并将其转换为 DataFrame 格式。特征工程：根据实际情况，对特征进行预处理、特征选择或特征提取。你可以使用 Spark ML 的特征转换器（如 VectorAssembler、StandardScaler）来创建特征向量，并对特征进行标准化等处理。划分训练集和测试集：将数据集划分为训练集和测试集，一般按照某种比例进行划分，例如 70% 的数据作为训练集，30% 的数据作为测试集。训练模型：选择合适的分类算法（如逻辑回归、决策树、随机森林等）进行模型训练。使用训练集数据拟合模型。模型评估：使用测试集数据对训练好的模型进行评估，计算分类性能指标（如准确率、精确率、召回率、F1 值等）。调优和优化：根据评估结果，调整模型参数或尝试其他的分类算法，以获得更好的性能。回归任务：加载数据集：使用 Spark 的数据加载功能读取 file.csv 文件，并将其转换为 DataFrame 格式。特征工程：根据实际情况，对特征进行预处理、特征选择或特征提取。你可以使用 Spark ML 的特征转换器（如 VectorAssembler、StandardScaler）来创建特征向量，并对特征进行标准化等处理。划分训练集和测试集：将数据集划分为训练集和测试集，一般按照某种比例进行划分，例如 70% 的数据作为训练集，30% 的数据作为测试集。训练模型：选择合适的回归算法（如线性回归、岭回归、决策树回归等）进行模型训练。使用训练集数据拟合模型。模型评估：使用测试集数据对训练好的模型进行评估，计算回归性能指标（如均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）等）。调优和优化：根据评估结果，调整模型参数或尝试其他的回归算法，以获得更好的性能。聚类（Clustering）示例：K-means 算法import sys sys.path.insert(0, '/opt/140client/Spark2x/spark/python') sys.path.insert(0, '/opt/140client/Spark2x/spark/python/lib/py4j-0.10.9-src.zip') import os os.environ["PYSPARK_PYTHON"]="/usr/anaconda3/bin/python3" import pyspark from pyspark.sql import SparkSession from pyspark import SparkConf from pyspark import SparkContext from pyspark.ml.clustering import KMeans from pyspark.ml.evaluation import ClusteringEvaluator from pyspark.ml.feature import VectorAssembler os.system('source /opt/140client/bigdata_env') os.system('echo password | kinit 用户名') spark = SparkSession \ .builder \ .appName("MLlibPythonExample") \ .getOrCreate() # 加载数据集 data = spark.read.format("csv") \ .option("header", "true") \ .option("inferSchema", "true") \ .load("/tmp/sandbox/file.csv") # 创建特征向量列 assembler = VectorAssembler(inputCols=data.columns, outputCol="features") data = assembler.transform(data) # 训练 K-means 聚类模型 kmeans = KMeans(k=2, seed=123) model = kmeans.fit(data) # 进行预测 predictions = model.transform(data) # 评估聚类模型 evaluator = ClusteringEvaluator() silhouette = evaluator.evaluate(predictions) print("Silhouette with squared euclidean distance = " + str(silhouette))输出轮廓系数为0.370580730000838Silhouette（轮廓系数）是一种用于评估聚类算法效果的指标。它结合了样本与其所分配到的簇内部的紧密度和与其他簇之间的分离度，用于衡量聚类结果的紧密性和分离性。轮廓系数的取值范围在[-1, 1]之间，具体含义如下：接近 1 表示样本与所在簇的紧密度高且与其他簇的分离度好，聚类效果较好。接近 0 表示样本与所在簇的紧密度和与其他簇的分离度相当，聚类效果一般。接近 -1 表示样本与所在簇的紧密度低且与其他簇的分离度差，聚类效果较差。分类（Classification）示例：逻辑回归算法import sys sys.path.insert(0, '/opt/140client/Spark2x/spark/python') sys.path.insert(0, '/opt/140client/Spark2x/spark/python/lib/py4j-0.10.9-src.zip') import os os.environ["PYSPARK_PYTHON"]="/usr/anaconda3/bin/python3" import pyspark from pyspark.sql import SparkSession from pyspark import SparkConf from pyspark import SparkContext os.system('source /opt/140client/bigdata_env') os.system('echo password | kinit 用户名') spark = SparkSession \ .builder \ .appName("MLlibPythonExample2") \ .getOrCreate() from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.ml.feature import VectorAssembler # 加载数据集 data = spark.read.format("csv") \ .option("header", "true") \ .option("inferSchema", "true") \ .load("/tmp/sandbox/file.csv") # 创建特征向量列和标签列 assembler = VectorAssembler(inputCols=data.columns[:-1], outputCol="features") data = assembler.transform(data) # 划分训练集和测试集 trainData, testData = data.randomSplit([0.7, 0.3], seed=123) # 训练逻辑回归模型 lr = LogisticRegression() model = lr.fit(trainData) # 进行预测 predictions = model.transform(testData) # 评估模型性能 evaluator = BinaryClassificationEvaluator(labelCol="label") accuracy = evaluator.evaluate(predictions) print("Accuracy: ", accuracy)输出准确率为1.0 准确率（Accuracy）是一种用于评估分类算法效果的指标，表示分类器正确分类的样本数量与总样本数量之比。准确率是最常用的分类性能指标之一，它简单直观，并且对于数据类别相对均衡的情况下是一种有效的度量。然而，当数据类别不平衡时，准确率可能会产生误导，因为一个简单的分类器只需要将所有样本都预测为多数类别，就能获得较高的准确率。在这种情况下，需要考虑其他性能指标（如精确率、召回率、F1 值等）来全面评估分类器的表现。回归（Regression）示例：线性回归算法import sys sys.path.insert(0, '/opt/140client/Spark2x/spark/python') sys.path.insert(0, '/opt/140client/Spark2x/spark/python/lib/py4j-0.10.9-src.zip') import os os.environ["PYSPARK_PYTHON"]="/usr/anaconda3/bin/python3" import pyspark from pyspark.sql import SparkSession from pyspark import SparkConf from pyspark import SparkContext os.system('source /opt/140client/bigdata_env') os.system('echo password | kinit 用户名') spark = SparkSession \ .builder \ .appName("MLlibPythonExample3") \ .getOrCreate() from pyspark.ml.regression import LinearRegression from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.feature import VectorAssembler # 加载数据集 data = spark.read.format("csv") \ .option("header", "true") \ .option("inferSchema", "true") \ .load("/tmp/sandbox/file.csv") # 创建特征向量列和标签列 assembler = VectorAssembler(inputCols=data.columns[:-1], outputCol="features") data = assembler.transform(data) # 划分训练集和测试集 trainData, testData = data.randomSplit([0.7, 0.3], seed=123) # 训练线性回归模型 lr = LinearRegression() model = lr.fit(trainData) # 进行预测 predictions = model.transform(testData) # 评估模型性能 evaluator = RegressionEvaluator(labelCol="label") rmse = evaluator.evaluate(predictions, {evaluator.metricName: "rmse"}) print("RMSE: ", rmse)RMSE的值为0.8103354037267079均方根误差（Root Mean Square Error，RMSE）是一种常用的评估回归模型预测精度的指标，用于衡量实际观测值与模型预测值之间的差异程度。RMSE 的值越小，表示模型的预测精度越高，与真实观测值之间的差异程度越小。RMSE 是对误差的平均值进行开方，因此保留了误差的单位，通常与原始数据的单位相同。使用spark-submit提交任务创建脚本mllib.py，上传认证凭据user.keytab至对应目录下提交命令spark-submit --master yarn /opt/sandbox/mllib.py --keytab /opt/sandbox/user.keytab --principal sandbox聚类（Clustering）示例：K-means 算法分类（Classification）示例：逻辑回归算法回归（Regression）示例：线性回归算法

Ivan-agatha 发表于2023-08-29 10:25:01 2023-08-29 10:25:01 最后回复 Ivan-agatha 2023-08-29 10:25:01
77 0

spark Python
[赋能学习] sprk-sql访问数据库

1 spark-sql访问clickhouse数据库1.1 启动命令：spark-sql --master yarn --deploy-mode client --jars /home/hadoopclient/Spark/spark/jars/clickhouse-jdbc-0.3.1-h0.cbu.mrs.320.r33.jarjar包下载地址：clickhouse-jdbc-0.3.1-h0.cbu.mrs.320.r33.jar1.2 创建表：CREATE TABLE ck_test USING org.apache.spark.sql.jdbc options ( driver 'ru.yandex.clickhouse.ClickHouseDriver', url 'jdbc:clickhouse://{addr}:{port}', dbtable '{database}.{table}', user '{username}', password '{password}', ssl 'true', isCheckConnection: 'true', sslMode 'none');参数说明：参数说明{database}连接ck的数据库名{addr}:{port}连接ck的地址和端口{username}登录ck的用户名{password}登录ck的密码{table}ck表名1.3 查询结果：输入select * from ck_test查询结果2 spark-sql访问mysql数据库2.1 启动命令：spark-sql --master yarn --deploy-mode client --jars /home/hadoopclient/Spark/spark/jars/mysql-connector-java-8.0.24.jar2.2 创建表：CREATE TABLE mysql_test USING org.apache.spark.sql.jdbc options ( driver ' com.mysql.cj.jdbc.Driver', url ' jdbc:mysql://{addr}:{port}', dbtable '{database}.{table}', user '{username}', password '{password}');参数说明：说明参数{database}连接mysql的数据库名{addr}:{port}连接mysql的地址和端口，默认端口为3306{username}登录mysql的用户名{password}登录mysql的密码{table}mysql表名说明：mysql本身设定有访问权限，一般来讲安装的时候如果没有允许远程访问，非localhost 的IP是无法访问到mysql的，需要创建远程访问用户并授权。1、创建远程访问用户：create user 'spark_test'@'%' identified by '123456';创建的用户名：spark_test用户的密码：1234562、给创建用户授权：grant all privileges on test_data.* to 'spark_test'@'%' with grant option;这里表示给用户spark_test赋予数据库test_data（这是之前创建好的数据库）中所有表的所有权限3、刷新权限：flush privileges;2.3 查询结果输入select * from mysql_test查询结果3 spark-sql访问PostgreSQL数据库3.1 启动命令：spark-sql --master yarn --deploy-mode client --jars /home/hadoopclient/Spark/spark/jars/postgresql-42.6.0.jar3.2 创建表：CREATE TABLE postgres_test USING org.apache.spark.sql.jdbc options ( driver 'org.postgresql.Driver', url 'jdbc:postgresql://{addr}:{port}/{database}', dbtable '{schema}.{table}', user '{username}', password '{password}');参数说明：参数说明{database}连接的数据库名{addr}:{port}连接Postgresql的地址和端口，默认端口为5432{username}登录postgresql的用户名{password}登录postgresql的密码{schema} {table}分别为postgresql的schema(模式)和表名3.3 查询结果输入select * from postgres_test 查询结果

zt_h 发表于2023-04-23 18:10:14 2023-04-23 18:10:14 最后回复 zt_h 2023-04-23 18:10:14
59 0

spark
[赋能学习] MRS3.2.0版本二次开发: Spark读写Clickhouse样例

一、Spark简介Spark是分布式批处理框架，提供分析挖掘与迭代式内存计算能力，支持多种语言（Scala/Java/Python）的应用开发。适用以下场景：数据处理（Data Processing）：可以用来快速处理数据，兼具容错性和可扩展性。迭代计算（Iterative Computation）：支持迭代计算，有效应对多步的数据处理逻辑。数据挖掘（Data Mining）：在海量数据基础上进行复杂的挖掘分析，可支持各种数据挖掘和机器学习算法。流式处理（Streaming Processing）：支持秒级延迟的流式处理，可支持多种外部数据源。查询分析（Query Analysis）：支持标准SQL查询分析，同时提供DSL（DataFrame），并支持多种外部输入。二、背景说明在Spark应用中，用户可以通过ClickHouse JDBC的原生接口，以及Spark JDBC驱动，实现对ClickHouse数据库和表的创建、查询、插入等操作。通过ClickHouse JDBC驱动创建数据库和表，并插入数据。然后使用Spark JDBC接口读取ClickHouse表中数据，进行转换处理后再追加写入到ClickHouse表中。主要分为四个部分：创建ClickHouse数据库和表，将数据插入表中。使用Spark JDBC接口读取ClickHouse表中数据。注册临时表，并对表中字段ID进行处理，返回新的数据集。将新的数据集数据追加写入到ClickHouse表中。三、样例调试前提：Linux环境有安装集群客户端比对“本地时间和Linux机器时间”与集群时间误都不能超过5分钟检查linux环境的JDK版本为1.8配置linux环境的/etc/hosts文件检查 C:\Windows\System32\drivers\etc\hosts文件中是否包含所有集群节点的域名IP映射信息在IDEA打开样例代码的SparkOnEsJavaExample目录，检查SDK配置默认自动加载依赖，如未加载，则打开后选中pom.xml文件，右键点击“Add As Maven Project”后等待项目自动将依赖下载完毕在Linux环境新建目录，例如“/opt/spark-on-ck/”在集群中获取clickhouse.jdbc驱动,将驱动放置到spark-on-ck中find / -name clickhouse-jdbc*10、打包样例代码在IDEA主页面，选择“View->Tool Windows->Maven”打开“Maven”工具窗口。在Maven工具窗口，选择clean生命周期，执行Maven构建过程。在Maven工具窗口，选择package生命周期，执行Maven构建过程。从IDEA项目目录下的target文件夹中获取到Jar包,拷贝到Spark运行环境下（即Spark客户端），如“/opt/spark-on-ck”。四、linux环境下运行1、java代码中设置了需传入5个参数，因此执行命令必须进行传入该集群的这5个参数jdbcUrl:jdbc:clickhouse://x.x.x.x:21428/testdb2?ssl=true&sslmode=noneckDBName: ck中的数据库，不需要提前创建ckTableName:ck中创建的表，不需要提前创建userName：集群用户名password：集群用户名密码参考产品文档，进入clickhouse命令为clickhouse client --host ip --user username --password --port 21425 --secure将打包好的jar包上传到spark-on-ck目录下，进入该目录，执行如下命令spark-submit --master yarn --deploy-mode client --jars ./clickhouse-jdbc-0.3.1-h0.cbu.mrs.320.r11.jar --class com.huawei.bigdata.spark.examples.SparkOnClickHouseExample SparkOnClickHouseJavaExample-1.0.jar "jdbc:clickhouse://x.x.x.x:21428/testdb2?ssl=true&sslmode=none" "testdb3" "testlyf" "lyf" "passwd"进入创建的数据库查看创建的表

Ivan-agatha 发表于2023-03-30 09:33:53 2023-03-30 09:33:53 最后回复 Ivan-agatha 2023-07-04 17:02:34
230 1

ClickHouse spark
[赋能学习] spark经典维护案例集合

spark全部案例集合见维护宝典：https://support.huawei.com/hedex/hdx.do?docid=EDOC1100222546&lang=zh&idPath=22658044|22662728|22666212|22396131（FusionInsight HD&MRS租户面集群故障案例（6.5.X-8.X）->维护故障类->spark->常见故障）spark经典案例、总结、重大问题见下表：经典案例分类序号案例出现频次spark性能问题1.1SparkStreaming任务因shuffle用时长导致任务整体变慢★★★★1.2★★1.3★★★★1.4★★★★★spark任务常见异常2.1spark任务executor心跳丢失★★★★★2.2spark-sql或spark-beeline查询报错：File does not exist★★2.3spark任务提交使用Python3★★2.4★★★JDBCServer任务失败排查3.1spark资源类相关参数介绍★★3.2★★★★★3.3★★★★★3.4★★★★★3.5★★★★★spark任务日志4.1spark基本原理介绍以及日志收集★★★4.2spark任务日志级别修改★★★4.3yarn-client模式下Driver端打印gc.log★★★

顾先生啊 发表于2022-12-27 17:09:50 2022-12-27 17:09:50 最后回复顾先生啊 2022-12-30 11:20:01
211 2

spark
2022华为开发者大赛暨HCSD校园沙龙落地宁波，共攀技术高峰

9月21日，【华为开发者大赛暨HCSD校园沙龙】走进宁波大学科学技术学院。本次活动由华为技术有限公司主办，宁波大学科学技术学院、华为云开发者联盟产品部以及华为云宁波沃土工场联合承办。2022华为开发者大赛联合高校圈层活动品牌HCSD（Huawei Cloud Student Developers）推出【华为开发者大赛暨HCSD校园沙龙】活动，旨在协权威专家走进校园，与高校开发者共话行业技术、勇攀技术高峰，共建高校生态，助力院校人才培养。活动现场助力产教融合，架起高校学子和“云服务”连接桥梁活动伊始，宁波大学科学技术学院副院长朱世华在活动当天的发言中表示华为作为我国民营高科技企业，在引领产业发展和人才培养方面均提供了很好的资源与平台，希望同学们好好利用本次机会，积极参与活动。本次沙龙活动促进了校企合作实质性开展。宁波大学科学技术学院副院长朱世华“如今数字产业在迅速发展，而构建产业生态，人才是关键；数字人才，高校学生是核心；未来，高校人才是数字产业的践行者。”华为云中国区副总裁陈玙说，华为公司将继续紧密携手宁波大学科学技术学院，从人才培养、科学研究、师资建设到产学研合作，形成体系化及常态化的校企合作，助力高校数字人才的培养。华为云中国区副总裁陈玙深化人才培养，华为开发者大赛与校园沙龙并驾齐驱华为云赋能云生态总监程国春从产业发展与人才培养双向驱动的角度出发，分享了基于开发者旅程，高校生态助力人才培养的发展战略。华为云持续参与教育部项目，通过贡献丰富的资源、活动和赛事全面助力产教融合，旨在持续深化校企合作，打造人才培养闭环，助力数字人才输出，共建优良高校生态。他表示，华为云将持续为院校提供优质的资源，共同打造值得信赖、共创共享共赢的生态体系，共谱人才培养新乐章。华为云赋能云生态总监程国春接着，华为大赛运营专家郑彭元详细介绍了华为开发者大赛，“开发者是数字时代勇于创新的中坚力量，每一个开发者都了不起。”本次大赛以Spark Infinity 创想无限为主题。面向开发者开放华为云能力，为广大开发者提供了海量API接口。也期待各位开发者通过大赛这个顶级竞技舞台，可以发挥想象力进行创新创造，结合实际场景，解决行业痛点，共建云生态。华为大赛运营专家郑彭元2022年，华为云推出了高校圈层活动品牌HCSD（Huawei Cloud Student Developers）,即华为云学生开发者，由校园大使为代表的校园开发者组织，旨在通过树立榜样培养更多优秀的?校开发者。本次活动现场，信息工程学院院长钟才明和华为浙江宁波云业务部总经理吕想为优秀的校园大使卢羽、杨永祺同学进行颁发证书。AI实操升级，行业专家现场支招如今，以云和AI为核心的全场景智慧时代正在加速到来，各行各业将通过新技术进行数字化转型，重构体验、优化流程、使能创新，打造面向未来的核心竞争力。那么高校开发者如何抓住时代机遇，学好AI呢？华为云EI开发者生态工程师岩风针对人工智能定位、人工智能技术发展历程、人工智能入门难点及AI工程师面临的问题和挑战、华为云一站式AI开发管理平台ModelArts、AI Gallery社区、华为云开发者认证简介和华为云开发者认证权益等方面问题，进行了深入浅出的讲解。还带领学生体验了华为云开发者认证中的热门实验,学习了解如何识别OCR服务，既提升了同学们的运用能力，也带领同学们通过实践体验开发乐趣，增强同学们考取华为云开发者认证的信心。华为云EI开发者生态工程师岩风活动现场，同学们踊跃参与，氛围十分活跃，不少同学抓住机会与专家进行互动问答，切磋交流。转眼活动进入尾声，还为同学们开放了华为云开发者认证考试券名额，旨在通过开发者认证体系，帮助同学们学习并考取认证，真正在云上作业，懂开发会开发，进而助力数字产业人才生态发展。师生现场互动指导实操

yd_212914339 发表于2022-11-23 11:43:40 2022-11-23 11:43:40 最后回复 yd_212914339 2022-11-23 11:43:40
79 0

AI开发平台ModelArts 人工智能 spark 开发者
江苏首场！2022华为开发者大赛暨HCSD校园沙龙落地无锡

9⽉14⽇，【华为开发者大赛暨HCSD校园沙龙】走进无锡南洋职业技术学院。本次活动由华为技术有限公司主办，华为云开发者联盟产品部、华为无锡软件开发云创新中心联合承办，无锡南洋职业技术学院·智能装备与信息工程学院协办。2022华为开发者大赛联合高校圈层活动品牌HCSD（Huawei Cloud Student Developers）推出【华为开发者大赛暨HCSD校园沙龙】活动，旨在协华为专家走进校园，与高校开发者共话行业技术、勇攀技术高峰，共建高校生态，助力院校人才培养。活动现场合照活动伊始，无锡市计算机学会副理事长兼秘书长致辞表示，华为在人才培养方面提供了很好的资源与平台，希望同学们好好利用本次机会，积极参与活动。本次沙龙活动促进了校企合作实质性深层次开展。无锡市计算机学会副理事长兼秘书长随后，华为大赛运营专家刘雅婕详细介绍了华为开发者大赛江苏赛区，本届大赛江苏赛区以“Spark Infinity 创想无限”为主题。此次在无锡正式启动的2022华为开发者大赛江苏赛区是中国赛区的一个重要组成部分。面向开发者开放华为云能力，为广大开发者提供了海量API接口。也期待各位开发者通过大赛这个顶级竞技舞台，可以发挥想象力进行创新创造，结合实际场景，解决行业痛点，共建云生态。参赛者可在华为云官网报名，作品征集将持续至2022年10月8日，开发者可以充分发挥想象力进行创新创造，解决实际问题。华为开发者大赛运营专家刘雅婕如今，以云和AI为核心的全场景智慧时代正在加速到来，各行各业将通过新技术进行数字化转型，重构体验、优化流程、使能创新，打造面向未来的核心竞争力。那么高校开发者如何抓住时代机遇学好AI呢？华为云EI开发者生态工程师青姚老师人工智能定位、人工智能技术发展历程、人工智能入门难点及AI工程师面临的问题和挑战、华为云一站式AI开发管理平台ModelArts、AI Gallery社区、华为云开发者认证简介和华为云开发者认证权益等方面问题，进行了深入浅出的讲解。还带领学生体验了华为云开发者认证中的热门实验,学习了解如何使用文字识别OCR服务，既提升了同学们的运用能力，也带领同学们通过实践体验开发乐趣，增强同学们考取华为云开发者认证的信心。华为云EI开发者生态工程师青姚活动现场，同学们踊跃参与，氛围十分活跃，不少同学抓住机会与专家进行互动问答，切磋交流。转眼活动进入尾声，还为同学们开放了华为云开发者认证考试券名额，旨在通过开发者认证体系，帮助同学们学习并考取认证，真正在云上作业，懂开发会开发，进而助力数字产业人才生态发展。活动现场学生实操

yd_212914339 发表于2022-11-23 11:41:47 2022-11-23 11:41:47 最后回复 yd_212914339 2022-11-23 11:41:47
77 0

AI开发平台ModelArts 开发者认证人工智能 spark
2022华为开发者大赛暨HCSD校园沙龙落地无锡职业技术学院，共话前沿技术

9月27日，华为开发者大赛暨HCSD校园沙龙走进无锡职业技术学院。本次活动由华为技术有限公司主办，华为云开发者联盟产品部、华为无锡软件开发云创新中心联合承办，无锡职业技术学院协办。2022华为开发者大赛联合高校圈层活动品牌HCSD（Huawei Cloud Student Developers）推出华为开发者大赛暨HCSD校园沙龙活动，旨在协华为专家走进校园，与高校开发者共话行业技术、勇攀技术高峰，共建高校生态，助力院校人才培养。活动现场活动伊始，无锡职业技术学院物联网技术学院院长蔡建军致辞表示，华为在人才培养方面提供了很好的资源与平台，希望同学们好好利用本次机会，积极参与活动。本次沙龙活动促进了校企合作实质性深层次开展。无锡职业技术学院物联网技术学院院长蔡建军随后，华为云中国区生态总监程国春致辞表示，高校人才是数字产业的践行者，未来华为公司将继续紧密携手无锡职院，从人才培养、科学研究、师资建设到产学研合作，形成体系化及常态化的校企合作，助力高校数字人才的培养。华为云中国区生态总监程国春HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。在传统的单设备系统能力基础上，HarmonyOS提出了基于同一套系统能力、适配多种终端形态的分布式理念，能够支持手机、平板、智能穿戴、智慧屏、车机等多种终端设备，提供全场景移动办公、运动健康、社交通信、媒体娱乐等业务能力。华为开发者创新中心鸿蒙技术专家胡宇基于鸿蒙的发展旅程、鸿蒙的技术框架和技术特性几个方面进行了详细讲解，并为大家演示了基于鸿蒙操作系统进行软件、硬件开发。华为开发者创新中心鸿蒙技术专家胡宇接下来，主持人详细介绍了华为开发者大赛，本届大赛以“Spark Infinity 创想无限”为主题，面向开发者开放华为云能力，为广大开发者提供了海量API接口。期待开发者通过大赛这个顶级竞技舞台，可以发挥想象力进行创新创造，结合实际场景，解决行业痛点，共建云生态。参赛者可在华为云官网报名，作品征集将持续至2022年10月8日，开发者可以充分发挥想象力进行创新创造，解决实际问题。如今，以云和AI为核心的全场景智慧时代正在加速到来，各行各业将通过新技术进行数字化转型，重构体验、优化流程、使能创新，打造面向未来的核心竞争力。那么高校开发者如何抓住时代机遇学好AI呢？华为云EI开发者生态工程师青姚老师针对人工智能定位、人工智能技术发展历程、人工智能入门难点及AI工程师面临的问题和挑战、华为云一站式AI开发管理平台ModelArts、AI Gallery社区、华为云开发者认证简介和华为云开发者认证权益等方面问题，进行了深入浅出的讲解。还带领学生体验了华为云开发者认证中的热门实验,学习了解如何使用文字识别OCR服务，既提升了同学们的运用能力，也带领同学们通过实践体验开发乐趣，增强同学们考取华为云开发者认证的信心。华为云EI开发者生态工程师青姚活动现场，同学们踊跃参与，氛围十分活跃，不少同学抓住机会与专家进行互动问答，切磋交流。转眼活动进入尾声，还为同学们开放了华为云开发者认证考试券名额，旨在通过开发者认证体系，帮助同学们学习并考取认证，真正在云上作业，懂开发会开发，进而助力数字产业人才生态发展。活动现场华为无锡软件开发云创新中心始终致力于携手政校企多方合作,为无锡数字经济发展培养输送创新性、应用型人才。未来，华为云将带来更多的产教融合活动、专业技术培训、激励扶持等，全面助力繁荣无锡人才生态。

yd_212914339 发表于2022-11-23 11:39:55 2022-11-23 11:39:55 最后回复 yd_212914339 2022-11-23 11:39:55
73 0

人工智能 spark 互联网EI 开发者
[伙伴总结分享] 2022华为开发者大赛暨HCSD校园沙龙落地深圳技术大学

8⽉30⽇，“华为开发者大赛暨HCSD校园沙龙”走进深圳技术大学。本次活动由华为技术有限公司主办，华为云开发者联盟产品部、鲲鹏产业源头创新中心承办，深圳技术大学大数据与互联网学院、开源创客协会协办。2022华为开发者大赛联合高校圈层活动品牌HCSD（Huawei Cloud Student Developers）推出“华为开发者大赛暨HCSD校园沙龙”活动，旨在携华为专家走进深圳技术大学，与高校开发者共话行业技术、勇攀技术高峰，共建高校生态，助力院校人才培养。活动伊始，深圳技术大学大数据学院副院长曹建民发表致辞，“校企合作是数字人才培养制度的创新，更是理论与实践相结合的教学模式传承，不仅服务企业发展的人才需求，对促进学校人才培养也具有重要意义。”他还表示，本次沙龙活动标志着双方合作的再次深化以及进一步协同创新。深圳技术大学大数据学院副院长曹建民随后，深圳华为云教育生态总监肖展鸿为到场师生详细介绍了华为云赋能高校人才培养的定位及目标。他指出：在全球数字经济转型的国际大背景下，我们的社会迫切需要技术能力强、实践能力强、创新能力强的复合型人才，推进自主创新、产业升级需要人才先行。鲲鹏产业源头创新中心是由深圳市人民政府和华为公司双方联合建立，并在此基础上由深圳市各区人民政府和华为公司针对区域产业特色建立多个区域创新中心，集中培养在华为云鲲鹏云服务、智能制造、企业智能、工业互联网等多个方向的创新人才，建立人才资源池以汇聚、输出行业通用性人才，在此基础上重点培养行业高、精、尖、缺人才，对产业形成人才输出效应，打造深圳市创新人才高地。深圳华为云教育生态总监肖展鸿接着，华为大赛运营专家郑彭元详细介绍了华为开发者大赛，“开发者是数字时代勇于创新的中坚力量，每一个开发者都了不起。”本次大赛以“Spark Infinity 创想无限”为主题。面向开发者开放华为云能力，为广大开发者提供了海量API接口。也期待各位开发者通过大赛这个顶级竞技舞台，可以发挥想象力进行创新创造，结合实际场景，解决行业痛点，共建云生态。华为大赛运营专家郑彭元如今，以云和AI为核心的全场景智慧时代正在加速到来，各行各业将通过新技术进行数字化转型，重构体验、优化流程、使能创新，打造面向未来的核心竞争力。那么高校开发者如何抓住时代机遇，学好AI呢？华为云AI专家雅琴老师针对AI入门常见问题、AI发展现状与趋势、华为云开发者认证简介、华为云开发者认证权益四方面问题，进行了深入浅出的讲解。还带领学生体验了华为云开发者认证中的热门实验“文字识别API服务调用”，学习了解如何使用文字识别API服务，快速实现图片转文字功能，既提升了同学们的运用能力，也带领同学们通过实践体验开发乐趣，增强同学们考取华为云开发者认证的信心。华为云AI专家刘雅琴活动现场，同学们踊跃参与，氛围十分活跃，不少同学抓住机会与专家进行互动问答，切磋交流。转眼活动进入尾声，还为同学们开放了华为云开发者认证考试券名额，旨在通过开发者认证体系，帮助同学们学习并考取认证，真正在云上作业，懂开发会开发，进而助力数字产业人才生态发展。

yd_212914339 发表于2022-11-23 11:07:25 2022-11-23 11:07:25 最后回复 yd_212914339 2022-11-23 11:07:25
156 0

API 开发者认证人工智能 spark
[问题求助] 写spark代码进行二次开发的时候，还需要往SparkConf里set相关的配置项目吗

我看了官方的demo代码，在hive to hbase项目代码里，只设置了appName，其余的全部没有设置，是可以自动读取hive-site.xml等配置文件吗？huaweicloud-mrs-example/SparkHivetoHbase.java at mrs-3.0.2 · huaweicloud/huaweicloud-mrs-example (github.com)这是我举例的代码连接这个是代码中读取hive表数据的代码片段 SparkConf conf = new SparkConf().setAppName("SparkHivetoHbase"); JavaSparkContext jsc = new JavaSparkContext(conf); HiveContext sqlContext = new org.apache.spark.sql.hive.HiveContext(jsc); Dataset dataFrame = sqlContext.sql("select name, account from person");如果在代码中需要设置的话我有一个问题，hive默认的元数据服务是DBService，那hive.metastore.uris这一项应该怎么配置

yd_261387748 发表于2022-09-26 16:53:35 2022-09-26 16:53:35 最后回复违规名称_001 2023-03-07 08:32:19
61 3

spark Hive FusionInsight 大数据

推荐直播

热门标签

Java Python 数据结构 Linux 数据库机器学习网络任务调度 MySQL JavaScript