Spark

Spark

文章 222 浏览 116

java连接spark提示序列化错误,但版本已经对应一致?

当我用java连接spark服务端时,出现了下面异常 网上大多说的是jar包不一致,但自己查看了是一致的,spark服务端版本如下客户端maven依赖版本 spark的…

烟酉 2022-09-11 22:35:50 18 0

$SPARK_HOME/conf下配置core-site.xml连接远程hive仓库的HDFS不起作用

问题描述 执行spark-submit [pyspark脚本].py,执行到SQL语句时报连接失败错误,在配置使用远程HDFS的情况下依然尝试连接本地的9000端口,根据此错误…

紫瑟鸿黎 2022-09-11 22:14:29 38 0

几千万个文本(1TB左右)需要根据规则计算做结构化,用什么大数据架构比较合适?

目前有几千万个文本(1TB左右)的数据存储在sqlserver中。需求是需要根据业务上的规则(位置,前后关键字,语法匹配等方式)对文本进行分析计算,将…

酒解孤独 2022-09-11 22:02:08 20 0

为什么一个集群不能同时使用Impala、Kylin和ElasticSearch呢

如题,最近在做技术选型,如果这些同时使用的话会有什么问题呢。…

我家小可爱 2022-09-11 21:42:56 33 0

Spark中从Struct字符串如何快速创建Schema

在使用Spark 2.4.0的一个新方法schema_of_json,主要是用来从json格式字符串中推断Schema的,方法有两个重载,源码如下 /** * Parses a JSON string …

白衬杉格子梦 2022-09-11 21:40:08 26 0

序列化后的数据,怎么从Spark读出并转成DataSet或者DataFrame?

想用spark分析zipkin输出的数据,结果第一步就出现困难... =。= 在kafka中有Span类型的数据,格式是Bytes[],需要通过SpanBytesDecoder这么一个类转…

樱桃奶球 2022-09-11 20:52:06 24 0

pyspark写入数据到oracle报错 session_per_user limit错误

最近在用spark做一些数据处理,在通过jdbc写入结果到Oracle时会报上述错误,意为连接数过多.根据当时Oracle设置的空闲连接数来判断,估计实际的连接会有…

少钕鈤記 2022-09-11 20:22:25 24 0

如何让spark集群外部package文件缓存到每台集群机器本地?

spark集群初学者。我在用pyspark --packages安装外部库后,每次启动一个app后slave的executor都向master机下载包文件,导致任务在slave机器上运行得…

梅倚清风 2022-09-11 20:01:51 28 0

spark启动后不监听7077端口

挺奇怪的一个问题,spark装好之后执行scala代码没有问题 但是web页面中是这样的 我并没有指定任何端口,所有端口的选择都是默认值,检查日志后发现wo…

ぽ尐不点ル 2022-09-11 18:58:14 17 0

关于spark及时查询的方案

你好,我想请教个问题,目前我们这有个需求是这样的,客户用的CDH集群,数据主要是存放在kudu中的,用户想要做spark的及时查询,不同cdh自带的impala…

紫轩蝶泪 2022-09-11 18:54:57 19 0

一个大数据业务场景问题

mysql某张日志表有一亿多条数据,每天大概三四百万的数据增量,现在要对这张表进行数据统计。在不受限于任何方向的技术方案的情况下进行技术改造,用…

幻想少年梦 2022-09-11 18:49:20 24 0

SparkStream checkpoint 的几个问题

刚用spark streaming,有几个关于checkpoint的疑问: checkpoint有两种,一种是对driver的meta的,一种是对data的。手册上说,只有用stateful transf…

尝蛊 2022-09-11 17:59:29 27 0

怎么在ubuntu集成开发环境里开始写spark代码?

大家好,打扰一下,困扰了很久的问题。我已经在ubuntu下载弄好了hadoop2.6和spark2.2,hadoop代码在eclipse编写,这个弄好了,就是不知道怎么写spark…

烟若柳尘 2022-09-11 17:57:44 23 0

Spark的sortBy函数为什么会生成4个MapPartitionsRDD?

在spark-shell中执行两段程序:第一段sortBy: val list1: List[(String, Int)] = List(("the", 12), ("they", 2), ("do", 4), ("wild", 1), ("and", …

我很OK 2022-09-11 17:57:09 22 0

如何用java实现SparkSQL dataframe添加自增序号列?

用spark分页查询数据,普通的sql()的不支持分页的sql语句在网上查资料说可以增加一个序列实现但是基本都是scala语言 // 在原Schema信息的基础上添加…

晨光如昨 2022-09-11 17:51:01 19 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文