Spark作业提交报错: Initial job has not accepted any resources; ...
我在本地使用IntelliJ IDEA进行spark开发,在提交到集群运行时报错。搜索一番之后,所有的答案都指向CPU/内存资源不足,但我已经设置了足够的CPU/内…
sparksql操作csv排序时如何进行Int类型的排序, 而不是String类型的排序
Dataset df = spark.read().format("csv").load("C:\\develop\\intellij-workspace\\SparkSqlDemos\\resources\\down.csv"); df.createOrReplaceTemp…
Zeppelin教程代码运行报错。
参照链接描述在zeppelin容器提供的网页笔记本中运行教程代码。导入本地文件: val bankText = sc.textFile("D:/Projects/Zeppelin/bank/bank-full.cs…
start-all 方式启动 spark 集群,没有出现 Master进程?
最开始启动了 spark,hdfs,yarn 成功,但是长时间后,发现无法正常提交 spark任务了,老是出现类似于如下错误。"INFO Client: Retrying connect to …
spark groupby 之后相同字段 的数据 是处于同一个分区吗?
假定一个RDD 存在十个分区, 当对这个RDD进行groupby之后得到一个新的RDD,相同字段的数据是否 处于同一个分区? 我测试结果查看是相同分组字段的数…
spark集群中的worker总是连接不到master, zookeeper集群实现master高可用?
1,spark0-2 三台主机是zookeeper集群 2,spark0-4五台主机是 spark集群 3 spark0-1 两台主机实现master高可用。 在spark0上运行start-all.sh启动spa…
Spark 中 关于scala 语法理解的问题
val lines: Dataset[String] = session.read.textFile("") val words: Dataset[String] = lines.flatMap(_.split(" ")) 上面lines是一个dataSet对象…
Oozie运行Spark2 Action
使用Ambari 2.6, 安装的是HDP-2.6.4 最近想用Oozie执行Spark2,按照提示设置好了spark2 lib,并且从oozie和spark2两个share lib folder中删除了重复…
Spark的DataFrame做Map操作时怎么返回超过22个字段
val originInfoDF = spark.sql("select col1, col2, col3, col4 from table_T") val aggData = originInfoDF .groupBy("col1") .agg(collect_set(arra…
spark mllib 可以将模型持久化到 hdfs 吗?
spark mllib 可以通过 model.save(hdfsPath) 将模型持久化吗?然后通过 xxxModel.load()将模型加载进来。ps:不是 spark mlps:spark ml 可以吗…
为什么spark ml 中没有基于测试数据的评估矩阵 Evaluation Metrics?
在 spark mllib 中有基于测试数据预测结果的评估矩阵 Evaluation Metrics,但是是不是 spark ml 库中却没有,我发现的是通过训练数据训练后的模型的 s…