Spark

文章 222 浏览 116

scala的distinct函数怎么用？

我这样写:val validRDD = unionRDD.map(item => { val arr = item.split(' ') ((arr(1), arr(2)), arr(3).toDouble) }) .distinct()unionRDD中是用空…

情释 2022-09-30 23:11:54 44 0

独热编码onehotEncoder的这个输出是什么意思？

输出这里 2代表什么以及后面两个数组是什么意思？例子：…

童话里做英雄 2022-09-13 01:23:55 33 0

create view 或者create table在Spark sql中的生命周期是多久？

想问下通过Spark sql客户端提交的sql创建的view 或者 table 的生命周期是多久？是只是当前这次执行流程中？还是下次在进入spark sql客户端还存在？ …

好多鱼好多余 2022-09-13 01:20:51 45 0

大数据杀熟定价的原理是什么？

大数据杀熟的原理和实现技术细节是什么？谢谢大佬…

来日方长 2022-09-13 00:56:56 45 0

为什么梯度下降法可以预测结果？

如下的例子：收集了事故是否发生以及一些可能的影响因素用梯度下降法模型代码可以预测新的因素情况下事故是否发生那么为什么？梯度下降法不是求的一…

葬心 2022-09-13 00:55:14 26 0

spark中ordering by是怎么用的？

如下的代码：ordering by 后面加的是什么意思？我没找到文档。还有：这里的case关键字是干啥的如果没有case 不一样可以用么？谢谢大佬…

夏雨凉 2022-09-13 00:49:57 37 0

架设Hudi的docker项目，spark连接不上

RT 用docker架设了一个hudi。但是spark死活连不上，一直报错。这是测试代码SparkSession session = SparkSession.builder() .master("spark://sparkma…

靖瑶 2022-09-13 00:49:19 45 0

scala中的spark sql有多快？

数据库为hive，执行一句group by 语句，测试不同方式的效率：第一种，用impalajdbc方式，返回arraylist，耗时10s第二种，用spark.format.jdbc方式，返…

清风疏影 2022-09-13 00:12:16 38 0

spark大数据分析爬虫存到csv有的列是list 请问应该怎么存到hive？直接存list吗？该怎么分析呢？

完全没有头绪目前自己定的流程是爬虫-》hdfs-》通过scala处理后存hive-》scala分析-》mysql…

一生独一 2022-09-12 23:10:55 35 0

pyspark下foreachPartition()向hbase中写数据，数据没有完全写入hbase中

1.问题描述在使用pyspark过程中，遇到了一个向hbase中写数据的问题，在foreachPartition()方法中使用happybase对每个partition中的数据进行写入hbase…

亢潮 2022-09-12 22:39:30 25 0

hadoop spark 大数据的分布式通信原理有个疑问？求指教一下

hadoop 和spark 都是有rpc 通信和kafka，分布式要么是rpc 要么是消息队列，为啥大数据这两种都有呢？为啥要一种不就可以了?难道是为了同步和异步处理…

风苍溪 2022-09-12 13:27:03 38 0

Spark 任务瓶颈分析

我先说说我的机器，一台 master，性能肯定够。一台 slave 节点（配置为 6 核 10g内存单块硬盘） master 节点只负责管理，不参与任何运算。然后发现…

滥情稳全场 2022-09-12 03:08:16 41 0

求算法计算，100个任务两个不同效率的人同时执行，最后总耗时

题目可能有些拗口，这里简单说明一下。假设，有一个工程，里面划分了 100 个任务，每一个任务的大小都是一样的。这时候有 A，B两个工人，A 工人每天…

颜漓半夏 2022-09-12 02:54:30 31 0

pyspark无法关闭

问题描述 pyspark无法关闭，调用stop也无法关闭,请问是什么原因呢如下 …

感受沵的脚步 2022-09-12 02:47:08 26 0

在 Spark中为什么task不是按照顺序执行

我在 spark-shell 下面运行一个最简单的 wordcount 程序， val text = spark.read.textFile("/datasets/wordcount_512m.txt") text.flatMap(line => …

浮生未歇 2022-09-12 02:40:49 41 0

共 15 页
1
2
3
4
5
下一页

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

Spark

scala的distinct函数怎么用？

独热编码onehotEncoder的这个输出是什么意思？

create view 或者create table在Spark sql中的生命周期是多久？

大数据杀熟定价的原理是什么？

为什么梯度下降法可以预测结果？

spark中ordering by是怎么用的？

架设Hudi的docker项目，spark连接不上

scala中的spark sql有多快？

spark大数据分析爬虫存到csv有的列是list 请问应该怎么存到hive？直接存list吗？该怎么分析呢？

pyspark下foreachPartition()向hbase中写数据，数据没有完全写入hbase中

hadoop spark 大数据的分布式通信原理有个疑问？求指教一下

Spark 任务瓶颈分析

求算法计算，100个任务两个不同效率的人同时执行，最后总耗时

pyspark无法关闭

在 Spark中为什么task不是按照顺序执行

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接