HBase 批量写关闭WAL
在HBase异步mutator.mutate(rows) 批量写的时候,如果关闭WAL会使得性能提升明显 但是当Region 挂的时候可能丢数据,这个Region 挂是指其中某一台挂…
运行kafka时遇到的问题
当我在运行这个命令时: sudo /usr/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka_2.10:1.5.1 twitterStream.py 报错: Exce…
spark collect操作报错 py4j.protocol.Py4JJavaError
只要一执行action操作,比如take,count,就会报错,是Java文件安装不对嘛 Traceback (most recent call last): File "/usr/software/spark-1.6.0/bi…
spark-stream中如何依次遍历同一个window中每个batch的数据呢?
批次间隔为10s, 窗口大小为20s, 步长为10s, 这样每个window应该有2个批次的数据,但是我用DStream.foreachRDD()每次只执行一次,按我理解因为有2个批…
windows下安装spark的问题
第一次装spark,不是很懂,按照网上的教程装了JDK,HADOOP,spark,环境变量都配置好了,winutils文件也下载并且修改了权限。具体安装步骤见http://bl…
Apache Beam报 copyAndReset must return a zero value copy
最近在学习Apache Beam.想把官方提供的WordCount的例子放到spark集群上去运行,然后将结果写到Hbase.但是在用spark submit提交jar包的时候,遇到下面的…
spark中分区是如何产生的
spark中的partition可以通过api来设置,如果不设置的会,系统会自动分区吗?分区的逻辑是什么?按照block,每个block来设置一个分区?有没有人啊- -。…
启动spark-shell时报value spark not found错误,请问是什么原因(因为昨天启动还是好的)?
java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org.apache.spark.sql.…
java里import的大括号{}代表什么意思?里边的内容又代表什么?
import com.mongodb.spark.rdd.partitioner.{DefaultMongoPartitioner, MongoPartitioner}…
Spark合并DataFrame
已经从hive中读取了两个DataFrame,showRecords为展示记录,playRecords为播放记录;vid为视频标识(还有其他字段,此处无关,省略)showRecords: vid…
如何把自己的算法迁移到spark平台
刚接触spark平台没多久,最近在spark上面练手的时候,发现spark把一些函数私有化了,导致在自己的项目中不能使用,比如: import org.apache.spark.m…
spark集群启动后,子机器上有worker进程,但在master机器上打开webui,worker却只有master是为什么?
hadoop和spark配置完成后,启动hadoop和spark没有报错,显示master和worker都正常启动,使用jps查看master和worker机器,也有Worker进程和Master进程…