Spark的内存淘汰策略是LRU还是FIFO?
Spark的内存淘汰策略(eviction strategy)是在Executor存储内存空间不足时置换已经被占用空间的策略。一些资料中提到Spark使用的是LRU,即当存储内…
如何把Spark的数据导出到Greenplum?
数据放在Spark集群的HDFS上,如何把Spark计算的结果导入到GP里面?计算后的结果存放到GP上,业务用户白天就查询GP,这样是不是速度可以更快一点。…
本地 Spark 连不上 web-ui ,请大神指教
想在 web ui 里看看自己spark任务的状况,但是在本地执行了任务,在web ui里却什么都没有显示。请问是需要什么特殊指令吗? conf = SparkConf().setM…
VUE SPA应用,每个页面组件单独引了自己的CSS,页面跳转后,CSS不销毁导致样式冲突
我们这边的前端做了个单页面应用,用vue+webpack做的,然后现在出个一个问题:就是每个页面单独引了自己的CSS,然后我现在就从A面到B页面之后,再Chro…
Ambari上面的Spark1.3想要升级到2.0应该怎么做?
Ambari上面的Spark1.3想要升级到2.0应该怎么做? 现在用的是HDP2.3,HADOOP是2.7版本,Spark太老了才是1.3,想升级到2.0。 我已经下载了pre-build版…
CDH5.8.2完全离线安装失败,报错Java拒绝连接
安装环境,三台centos6.5虚拟机,内存分配分别为8GB,2GB,2GBCDH版本为5.8.2,java版本均为1.8.0,使用完全离线安装,安装过程参考CDH5 Hadoop集群完…
Spark调优之Data Serialization
Spark调优之Data Serialization 序列化在分布式应用的性能表现上扮演着十分重要的角色,序列化慢并且耗费存储空间的格式会大大降低计算的速度。一般…
spark 生成RDD的运行机制
生成RDD其中一种方式Parallelize,运行原理是什么,是在action时候,把数据通过网络传递给worker节点的内存中吗,textfile可以理解,各个worker分布读…
spark 怎么对一个内容为一批Iterable[Double]的Rdd中的每一个Iterable[Double]做增值修改
小弟刚学spark,遇到个问题,求指教: val rdd = ... // 内容是 Iterable[Double] 现在想对rdd的每一个Iterable[Double]中按某种方法插入某些元素,…
spark 的 map 和 flatMap 应该怎样理解?
conf = SparkConf().setAppName("Simple App").setMaster("local") sc = SparkContext(conf=conf) file = "./README.md" “”“ 111 aaa bcd 22 qqq …
Spark: memory.ExecutionMemoryPool 报内存释放失败警报
跑一个 spark 程序时,从日志看到很多 task failed,从 executor 的日志看到多个 executor 报 WARN memory.ExecutionMemoryPool: Internal error: re…
如何将多个dataframe合并
我在计算数据的feature,id 是每个item的唯一标志,在数据库里是主键.我每次计算feature的时候是一个一个计算的。也就是我得到的dataframe1 = (id,fea…
mapreduce,spark,storm这些并行计算框架只是把大量任务分配到不同机器上吧,并不能达到整合大批机器的资源的目的?
也就是说单个机器上最细粒度程序的运算时间并不能通过这些框架提高,是不是?比如一个计算任务是10000个程序a,程序a在单台机器上运行了10min,那么换…
I have some question on spark.
I'm running an example using this command: ./bin/run-example org.apache.spart.examples.SparkPi local[3] Spark Command: /usr/lib/jvm/java-7-…