pyspark

投稿关注

文章 13 浏览 20

pyspark下foreachPartition()向hbase中写数据，数据没有完全写入hbase中

1.问题描述在使用pyspark过程中，遇到了一个向hbase中写数据的问题，在foreachPartition()方法中使用happybase对每个partition中的数据进行写入hbase…

亢潮 2022-09-12 22:39:30 25 0

stopwordsremover输入格式有问题（无法使用但没有报错）

按照原始数据输入可以正常运行，但是将自己的数据代入时，并没有删除想删除的部分原始数据 data_list=[[['r', 'z', 'h', 'k', 'p']]\ ,[['z', 'y', '…

像你 2022-09-12 00:15:26 20 0

pyspark使用client模式提交任务，集群无反应

问题描述搭建的三个节点的spark集群，通过webui上能看到所有的节点并且显示alive。单机运行python脚本，能够运行。提交任务到集群上，通过webui能看…

溺孤伤于心 2022-09-11 21:37:33 14 0

如何让spark集群外部package文件缓存到每台集群机器本地？

spark集群初学者。我在用pyspark --packages安装外部库后，每次启动一个app后slave的executor都向master机下载包文件，导致任务在slave机器上运行得…

梅倚清风 2022-09-11 20:01:51 28 0

如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集？

现在可以获得的数据格式为：00016C4838CE FA1003 5 每个字段分别为user_id,menu_id,click_num 也就是用户id，菜单id和菜单对应的点击次数以下截取了…

ゞ记忆︶ㄣ 2022-09-11 18:59:36 17 0

为什么pyspark同样一句话在jupyter notebook没问题，在pycharm上有问题

Linux环境下，我运行 categoriMap = train.map(lambdax:x[3]).distinct().zipWithIndex().collectAsMap() 这样一句话，在jupyter notebook正常运行没…

做个ˇ局外人 2022-09-07 23:06:01 17 0

pyspark如何修改Dataframe中一列的值

数据值是这样的 Survived age 0 22.0 1 38.0 1 26.0 1 35.0 0 35.0 0 null 0 54.0 0 2.0 1 27.0 1 14.0 1 4.0 1 58.0 0 20.0 0 39.0 0 14.0 1 55.0 0…

新雨望断虹 2022-09-07 21:33:41 24 0

spark中两份很大的数据如何能避免join时的shuffle

目的：在spark中有两份很大的数据需要join，两份输入数据都含有userid这个字段，现在需要根据userid关联，我希望能避免shuffle。已完成：我预先对两…

很酷不放纵 2022-09-07 19:59:04 31 0

为什么会在pyspark在RDD中调用python第三方库失败？

问题描述 Hi, 我在公司线上运行pyspark时调用jieba分词，发现可以成功import，但是在RDD中调用分词函数时却提示没有 module jieba，在本地虚拟机…

筱武穆 2022-09-07 16:37:24 21 0

pyspark 'JavaPackage' object is not callable

python程序内使用pyspark,如下 conf = (SparkConf() .setMaster("spark://192.168.1.168:7077") .setAppName("My app") .set("spark.executor.memory…

吃不饱 2022-09-05 06:05:26 63 0

pyspark编程对如下两个dataframe进行查询操作，如何提高效率?

1、有两个DataFrame：df1，df2都有共同的字段ACCTNO，df1中每行的ACCTNO字段唯一，需要遍历df1中的ACCTNO字段，并根据这些ACCTNO字段查询df2中对应的…

美人迟暮 2022-09-04 15:12:22 31 0

pyspark如何一次提交多个文件？

spark-submit指令，比如我要提交的python文件是几个互相import的文件，并且有的是在文件夹里的…

叫嚣ゝ 2022-09-02 15:37:21 26 0

PySpark有没类似R中as.numeric的功能？

我想用SVM模型，其train方法需要一个LabeledPoint参数，而LabeledPoint中都是float类型的元素，有没有哪个库函数可以解决string到float类型的映射？…

难以启齿的温柔 2022-09-02 01:39:29 15 0

共 1 页
1

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

pyspark

pyspark下foreachPartition()向hbase中写数据，数据没有完全写入hbase中

stopwordsremover输入格式有问题（无法使用但没有报错）

pyspark使用client模式提交任务，集群无反应

如何让spark集群外部package文件缓存到每台集群机器本地？

如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集？

为什么pyspark同样一句话在jupyter notebook没问题，在pycharm上有问题

pyspark如何修改Dataframe中一列的值

spark中两份很大的数据如何能避免join时的shuffle

为什么会在pyspark在RDD中调用python第三方库失败？

pyspark 'JavaPackage' object is not callable

pyspark编程对如下两个dataframe进行查询操作，如何提高效率?

pyspark如何一次提交多个文件？

PySpark有没类似R中as.numeric的功能？

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接