在 Spark中为什么task不是按照顺序执行
我在 spark-shell 下面运行一个最简单的 wordcount 程序, val text = spark.read.textFile("/datasets/wordcount_512m.txt") text.flatMap(line =&g…
Spark 的 executor memory 不影响系统的执行效率
我自己搭建了一个 Spark 开发测试环境。配置是 2 CPU,8G 内存,单机 standalone 模式部署。我运行了三次我的ALS程序(数据集每次都一样的),三次运…
pyspark使用client模式提交任务,集群无反应
问题描述 搭建的三个节点的spark集群,通过webui上能看到所有的节点并且显示alive。单机运行python脚本,能够运行。提交任务到集群上,通过webui能看…
spark工程里面有关配置文件的使用情况
问题描述 sparksql项目,sql脚本是放在resource/sql/文件在下面(业务不同,脚本有点多)本地编写代码加载sql脚本使用this.getClass.getResource().getP…
createDirectStream.foreachRDD调用外部对象出错
如下图: def update_model(rdd),调用外部声明的mixture_model会出现如下错误: 直接在update_model中声明 ·mixture_model·是没有问题的,但是每次fo…
locally 的 spark streaming 任务如何停止?
spark 部署方式分 locally,standalone,mesos,yarn standalone,mesos 可以用 spark-submit --master $MASTER_REST_URL --kill $DRIVER_ID 来停止 …
本地 Spark 连不上 web-ui ,请大神指教
想在 web ui 里看看自己spark任务的状况,但是在本地执行了任务,在web ui里却什么都没有显示。请问是需要什么特殊指令吗? conf = SparkConf().setM…
spark-submit 提交应用时出现ClassNotFoundException,请问如何解决?
查了相关资料,应该是出现依赖包冲突的问题。比如可能是我的spark使用的scala版本和依赖包使用的scala版本冲突,但我不知道如何查看scala的版本以及如…
spark程序实际环境是如何运用的
现在已经掌握了spark的编程但是程序写出来提交运行只是单次的 spark streaming还能一直监听运行,spark sql执行一次就结束了 真实项目中是如何运行sp…
spark on yarn运行应用出错!
在向yarn提交spark应用的时候出现如下错误: 版本:hadoop 2.7.1spark-1.5.2-bin-hadoop2.6 是什么原因,求大神解答! …
spark submit的时候怎么导入自己写的依赖模块?
python代码中的import from spark_learning.utils.default_utils import setDefaultEncoding,initSparkContext,ensureOffset submit命令: bin/spark…