第 6 页 - 大数据 - 文江博客

大数据

文章 168 浏览 846

spark中两份很大的数据如何能避免join时的shuffle

目的：在spark中有两份很大的数据需要join，两份输入数据都含有userid这个字段，现在需要根据userid关联，我希望能避免shuffle。已完成：我预先对两…

很酷不放纵 2022-09-07 19:59:04 31 0

spark sql 解析嵌套对象数组的json

1.现在有json数据如下 {"id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"packa…

忘羡 2022-09-07 16:50:40 29 0

各位大大帮我看看我这种处理方式是否合理【大量Json文件批量读取解析导入elasticsearch】。

业务场景需要把大量的json文件，读取并重新解析导入到elasticsearch，json文件是保存在不同的日期文件夹下的，单个文件夹大小差不多80g，文件下json…

痴骨ら 2022-09-07 16:09:34 27 0

kafka.common.KafkaException: Wrong request type 18

模拟配置kafka服务器后用简单的java客户端发送消息但是不见消息储存一直只能看到这个报错日志（消息确实没有储存） kafka.common.KafkaException: Wr…

岁月染过的梦 2022-09-07 03:47:30 14 0

有两个文件A.txt和B.txt...........

有A.txt和B.txt两文件A.txt中有3000w行数据，id和username之间以空格分隔内容如下： id usernmae 1 zhangsan 2 lisi ...... B.txt中有3000w行数据，i…

静谧幽蓝 2022-09-06 23:14:58 24 0

如何设足球联赛积分榜这样的关系型数据库呢？

我是想弄一个关于足球联赛的积分榜数据库。有球队表，联赛表，比赛表，然后是积分排行表。本来想着是个很简单的问题，着手去画图的时候发现是个对于…

一袭白衣梦中忆 2022-09-06 19:59:26 28 0

KETTLE 同步数据log文件有错误,但数据同步成功，帮忙分析下是什么引起的

环境1.KETTLE 7.12.JDK1.8.0_1513.WIN2012 Datacenter版现象描述 1.数据同步成功2.log文件有ERROR信息3.作业正常结束未受影响附上报错信息部分 00:…

梦途 2022-09-06 12:06:03 32 0

Hive 连接超时

环境介绍: ubuntu 16.04, java 1.8, Hadoop 2.6.5 , Hive 2.1.1 现在我有两台机器已经安装了Hadoop...现在我想要两台机器都可以使用Hive... master …

蓝眼泪 2022-09-06 10:56:42 18 0

有没有比较好的支持高级自定义的前端地图插件？

如题。希望实现以下目标：可以在地图上(而不是游离于地图之外)添加自定义的“搜索框”，“条件切换”等等控件; 在地图上自定义画出多边形并获取各…

笑看君怀她人 2022-09-06 10:56:21 19 0

ETL中的数据清洗和爬虫的数据清洗是一个概念吗？

ETL 是大数据里面的数据清洗？像kattle 很多工具都可以用，但是python 里面的pandas 也可以数据清洗，这些有啥区别？…

隔岸观火 2022-09-06 09:23:38 18 0

有1TB的数据，这些数据都是以单行单个数字的形式存储，使用MapReduce来构建一个分布式处理架构对这些数据进行排序。

问题：有1TB的数据，这些数据都是以单行单个数字的形式存储，使用MapReduce来构建一个分布式处理架构对这些数据进行排序。我的解决思路：先使用map…

念﹏祤嫣 2022-09-06 09:20:56 29 0

filebeat向es传送日志，如何设置保存索引的名称？

修改了收集日志的目录以及文件后缀以及传送es的地址然后config直接就成功了，运行后在存储es生成了个filebeat-2017.11.10的索引，然后收集的数据保存…

暖风昔人 2022-09-06 04:09:30 23 0

使用kafka向elasticsearch导入数据，如何获取导入数据的进度以及错误的日志？

我们目前采用的数据导入的框架是这样的：但是consumer是我们用kafka-python写的python代码，当程序崩溃的时候，有保护机制重新启动，但是有时会重复…

终陌 2022-09-06 02:37:32 23 0

StreamSets出现Reader exceeded the read limit '1048576''？

在es导数据到es的过程中出现这样的问题求大神求解，怎么去配置解决？Pipeline Status: RUNNING_ERROR: com.streamsets.pipeline.api.StageException: …

红ご颜醉 2022-09-05 23:48:26 18 0

hbase非rowkey字段模糊查询

假如hbase中存了一张表，C0作为ROWKEY字段。现在想通过scan查询，过滤出C1字段以‘bbb’结尾的数据。请问如何实现？ …

倾城花音 2022-09-05 09:40:27 17 0

共 11 页
上一页
4
5
6
7
8
下一页

友情链接

文江博客

大数据

spark中两份很大的数据如何能避免join时的shuffle

spark sql 解析嵌套对象数组的json

各位大大帮我看看我这种处理方式是否合理【大量Json文件批量读取解析导入elasticsearch】。

kafka.common.KafkaException: Wrong request type 18

有两个文件A.txt和B.txt...........

如何设足球联赛积分榜这样的关系型数据库呢？

KETTLE 同步数据log文件有错误,但数据同步成功，帮忙分析下是什么引起的

Hive 连接超时

有没有比较好的支持高级自定义的前端地图插件？

ETL中的数据清洗和爬虫的数据清洗是一个概念吗？

有1TB的数据，这些数据都是以单行单个数字的形式存储，使用MapReduce来构建一个分布式处理架构对这些数据进行排序。

filebeat向es传送日志，如何设置保存索引的名称？

使用kafka向elasticsearch导入数据，如何获取导入数据的进度以及错误的日志？

StreamSets出现Reader exceeded the read limit '1048576''？

hbase非rowkey字段模糊查询

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接