大数据

大数据

文章 168 浏览 846

spark中两份很大的数据如何能避免join时的shuffle

目的:在spark中有两份很大的数据需要join,两份输入数据都含有userid这个字段,现在需要根据userid关联,我希望能避免shuffle。 已完成:我预先对两…

很酷不放纵 2022-09-07 19:59:04 31 0

spark sql 解析嵌套对象数组的json

1.现在有json数据如下 {"id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"packa…

忘羡 2022-09-07 16:50:40 29 0

各位大大帮我看看我这种处理方式是否合理【大量Json文件批量读取解析导入elasticsearch】。

业务场景 需要把大量的json文件,读取并重新解析导入到elasticsearch,json文件是保存在不同的日期文件夹下的,单个文件夹大小差不多80g,文件下json…

痴骨ら 2022-09-07 16:09:34 27 0

kafka.common.KafkaException: Wrong request type 18

模拟配置kafka服务器后用简单的java客户端发送消息但是不见消息储存一直只能看到这个报错日志(消息确实没有储存) kafka.common.KafkaException: Wr…

岁月染过的梦 2022-09-07 03:47:30 14 0

有两个文件A.txt和B.txt...........

有A.txt和B.txt两文件A.txt中有3000w行数据,id和username之间以空格分隔内容如下: id usernmae 1 zhangsan 2 lisi ...... B.txt中有3000w行数据,i…

静谧幽蓝 2022-09-06 23:14:58 24 0

如何设足球联赛积分榜这样的关系型数据库呢?

我是想弄一个关于足球联赛的积分榜数据库。有球队表,联赛表,比赛表,然后是积分排行表。 本来想着是个很简单的问题,着手去画图的时候发现是个对于…

一袭白衣梦中忆 2022-09-06 19:59:26 28 0

KETTLE 同步数据log文件有错误,但数据同步成功,帮忙分析下是什么引起的

环境1.KETTLE 7.12.JDK1.8.0_1513.WIN2012 Datacenter版 现象描述 1.数据同步成功2.log文件有ERROR信息3.作业正常结束未受影响 附上报错信息部分 00:…

梦途 2022-09-06 12:06:03 32 0

Hive 连接超时

环境介绍: ubuntu 16.04, java 1.8, Hadoop 2.6.5 , Hive 2.1.1 现在我有两台机器已经安装了Hadoop...现在我想要两台机器都可以使用Hive... master …

蓝眼泪 2022-09-06 10:56:42 18 0

有没有比较好的支持高级自定义的前端地图插件?

如题。 希望实现以下目标: 可以在地图上(而不是游离于地图之外)添加自定义的“搜索框”,“条件切换”等等控件; 在地图上自定义画出多边形并获取各…

笑看君怀她人 2022-09-06 10:56:21 19 0

ETL中的数据清洗 和爬虫的数据清洗 是一个概念吗?

ETL 是大数据里面的数据清洗?像kattle 很多工具都可以用,但是python 里面的pandas 也可以数据清洗,这些有啥区别?…

隔岸观火 2022-09-06 09:23:38 18 0

有1TB的数据,这些数据都是以单行单个数字的形式存储,使用MapReduce来构建一个分布式处理架构对这些数据进行排序。

问题:有1TB的数据,这些数据都是以单行单个数字的形式存储,使用MapReduce来构建一个分布式处理架构对这些数据进行排序。 我的解决思路:先使用map…

念﹏祤嫣 2022-09-06 09:20:56 29 0

filebeat向es传送日志,如何设置保存索引的名称?

修改了收集日志的目录以及 文件后缀以及传送es的地址然后config直接就成功了,运行后在存储es生成了个filebeat-2017.11.10的索引,然后收集的数据保存…

暖风昔人 2022-09-06 04:09:30 23 0

使用kafka向elasticsearch导入数据,如何获取导入数据的进度以及错误的日志?

我们目前采用的数据导入的框架是这样的: 但是consumer是我们用kafka-python写的python代码,当程序崩溃的时候,有保护机制重新启动,但是有时会重复…

终陌 2022-09-06 02:37:32 23 0

StreamSets出现Reader exceeded the read limit '1048576''?

在es导数据到es的过程中出现这样的问题求大神求解,怎么去配置解决?Pipeline Status: RUNNING_ERROR: com.streamsets.pipeline.api.StageException: …

红ご颜醉 2022-09-05 23:48:26 18 0

hbase非rowkey字段模糊查询

假如hbase中存了一张表,C0作为ROWKEY字段。现在想通过scan查询,过滤出C1字段以‘bbb’结尾的数据。请问如何实现? …

倾城花音 2022-09-05 09:40:27 17 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文