pyspark 'JavaPackage' object is not callable
python程序内使用pyspark,如下 conf = (SparkConf() .setMaster("spark://192.168.1.168:7077") .setAppName("My app") .set("spark.executor.memory…
Spark运行的过程中产生RDD是如何记录下来的
在Spark的web ui中可以看到DAG图以及图中的RDD,这些RDD是如何被记录下来的?如下图: 图中包含的HadoopRDD和MapPartitionsRDD是如何得到的? …
zeppelin运行spark interpreter报错
有集群hadoop-2.2.0,spark-2.1.1,hive-2.1.1, zeppelin-0.7.2.各程序启动,在zeppelin中运行%spark 1+1报以下错误,这是为什么? WARN [2017-06-23…
spark向redis写入数据时产生的序列化问题
在用spark写入数据到redis里时候,如果这样用,数据能够写入,不过很慢,而且没写完就会报错: 报错: 如果这样用直接报一个序列化的错误: 报错: …
locally 的 spark streaming 任务如何停止?
spark 部署方式分 locally,standalone,mesos,yarn standalone,mesos 可以用 spark-submit --master $MASTER_REST_URL --kill $DRIVER_ID 来停止 …
spark datafram 分组后选取每组某个属性值最小的行
df.select('orderid','roomid','probability') probability是一个DenseVector按orderid分组后选取probability[0]值最小的行如何做到啊? …
JsonMappingException: Incompatible Jackson version: 2.8.5
Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.8.5 sparksql中突然出现了这个问题,搞不明白…
EMR上运行spark程序出现内存分配报错
spark小白求指教:最近在做相关的作业,spark的程序弄成jar包,上传到EMR上跑之后,程序运行8秒就失败了,报错信息: 17/05/06 13:44:12 INFO client…
应该如何对count()取别名,实现 select count(1) as loginCount from XXX 的效果
为什么这里对count()取别名无效?应该如何对count()取别名呢 val loginCountDF = rawData.groupBy("dnum", "clientType", "licenceType").count().al…
用Eclipse开发Spark应用,如何跟踪Spark源代码
之前一直用eclipse开发spark应用程序,但是spark官网没有提供可以跟踪源代码的jar包或者zip包,只能下载maven工程的源代码。我尝试把spark源码maven工…
spark如何处理两个RDD的关联问题
spark开发新手遇到如下问题,请大神赐教问题描述 数据处理过程中计算得到两个RDD:rdd1和rdd2, 1.rdd1显示数据集 (R1,3) (R2,5) (R3,5) (R4,5) (R5,3) …
Scala中单独的"(int x)"(就是一对括号里加int类型参数)是什么个意思?
今天写scala的时候发现一个有趣的问题,就是我在使用了list中的几个方法时,例如take()和drop()方法,在这些方法之后添加了一个(int x)之后(这里的x…
spark启动时报错:java.net.ConnectException: 无效的参数 (connect failed)
今天用了虚拟机安装了Spark的伪分布式模式,来体验一下;遇到如下异常: 17/02/21 05:01:17 INFO executor.Executor: Fetching http://0.0.0.28:5829…
spark可以手动指定某个task由特定的节点(worker)来执行吗?
如题,我有一个自定义的任务,但是在Spark中没有专门的函数可以执行该任务的并行操作,我可以在程序中指定这个任务的并行方式吗?就是说我能够将该任…