第 3 页 - Spark - 文江博客

投稿关注

Spark

文章 222 浏览 119

java连接spark提示序列化错误，但版本已经对应一致？

当我用java连接spark服务端时，出现了下面异常网上大多说的是jar包不一致，但自己查看了是一致的，spark服务端版本如下客户端maven依赖版本 spark的…

烟酉 2022-09-11 22:35:50 23 0

$SPARK_HOME/conf下配置core-site.xml连接远程hive仓库的HDFS不起作用

问题描述执行spark-submit [pyspark脚本].py，执行到SQL语句时报连接失败错误，在配置使用远程HDFS的情况下依然尝试连接本地的9000端口，根据此错误…

紫瑟鸿黎 2022-09-11 22:14:29 50 0

几千万个文本（1TB左右）需要根据规则计算做结构化，用什么大数据架构比较合适？

目前有几千万个文本（1TB左右）的数据存储在sqlserver中。需求是需要根据业务上的规则（位置，前后关键字，语法匹配等方式）对文本进行分析计算，将…

酒解孤独 2022-09-11 22:02:08 24 0

为什么一个集群不能同时使用Impala、Kylin和ElasticSearch呢

如题，最近在做技术选型，如果这些同时使用的话会有什么问题呢。…

我家小可爱 2022-09-11 21:42:56 42 0

Spark中从Struct字符串如何快速创建Schema

在使用Spark 2.4.0的一个新方法schema_of_json，主要是用来从json格式字符串中推断Schema的，方法有两个重载，源码如下 /** * Parses a JSON string …

白衬杉格子梦 2022-09-11 21:40:08 30 0

序列化后的数据，怎么从Spark读出并转成DataSet或者DataFrame？

想用spark分析zipkin输出的数据，结果第一步就出现困难... =。= 在kafka中有Span类型的数据，格式是Bytes[]，需要通过SpanBytesDecoder这么一个类转…

樱桃奶球 2022-09-11 20:52:06 29 0

pyspark写入数据到oracle报错 session_per_user limit错误

最近在用spark做一些数据处理,在通过jdbc写入结果到Oracle时会报上述错误,意为连接数过多.根据当时Oracle设置的空闲连接数来判断,估计实际的连接会有…

少钕鈤記 2022-09-11 20:22:25 28 0

如何让spark集群外部package文件缓存到每台集群机器本地？

spark集群初学者。我在用pyspark --packages安装外部库后，每次启动一个app后slave的executor都向master机下载包文件，导致任务在slave机器上运行得…

梅倚清风 2022-09-11 20:01:51 33 0

spark启动后不监听7077端口

挺奇怪的一个问题，spark装好之后执行scala代码没有问题但是web页面中是这样的我并没有指定任何端口，所有端口的选择都是默认值，检查日志后发现wo…

ぽ尐不点ル 2022-09-11 18:58:14 21 0

关于spark及时查询的方案

你好，我想请教个问题，目前我们这有个需求是这样的，客户用的CDH集群，数据主要是存放在kudu中的，用户想要做spark的及时查询，不同cdh自带的impala…

紫轩蝶泪 2022-09-11 18:54:57 23 0

一个大数据业务场景问题

mysql某张日志表有一亿多条数据，每天大概三四百万的数据增量，现在要对这张表进行数据统计。在不受限于任何方向的技术方案的情况下进行技术改造，用…

幻想少年梦 2022-09-11 18:49:20 28 0

SparkStream checkpoint 的几个问题

刚用spark streaming，有几个关于checkpoint的疑问： checkpoint有两种，一种是对driver的meta的，一种是对data的。手册上说，只有用stateful transf…

尝蛊 2022-09-11 17:59:29 35 0

怎么在ubuntu集成开发环境里开始写spark代码？

大家好，打扰一下，困扰了很久的问题。我已经在ubuntu下载弄好了hadoop2.6和spark2.2，hadoop代码在eclipse编写，这个弄好了，就是不知道怎么写spark…

烟若柳尘 2022-09-11 17:57:44 28 0

Spark的sortBy函数为什么会生成4个MapPartitionsRDD？

在spark-shell中执行两段程序：第一段sortBy: val list1: List[(String, Int)] = List(("the", 12), ("they", 2), ("do", 4), ("wild", 1), ("and", …

我很OK 2022-09-11 17:57:09 26 0

如何用java实现SparkSQL dataframe添加自增序号列？

用spark分页查询数据，普通的sql()的不支持分页的sql语句在网上查资料说可以增加一个序列实现但是基本都是scala语言 // 在原Schema信息的基础上添加…

晨光如昨 2022-09-11 17:51:01 26 0

共 15 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客