第 5 页 - bigdata - 文江博客

投稿关注

bigdata

文章 0 浏览 5

第一场比赛后的JQ停止

我有一个大文件（约500兆字节），其中数据是JSON格式。 { "0001": [ "aaaaa", "qqqqq" ], "0002": [ "aaaaa" ], "0003": [ "ccccc" ], "0004": [ "bbb…

剩余の解释 2025-01-25 23:35:53 3 0

实现蜂巢谱系

我认为蜂巢谱系不可用，但是经过一项研究，我发现它可以实现。我在搜索时发现的一些东西是通过Cloudera Manager或IBM Infosphere启用其血统的，我不感…

三生一梦 2025-01-25 09:58:58 2 0

使用Clickhouse的数据缓存

Intro 我将Clickhouse作为数据仓库（具有数十亿行的表）。用户使用我的应用程序后端与DWH进行交互，该应用程序将SQL查询生成ClickHouse。不同的用户…

乄_柒ぐ汐 2025-01-25 09:14:04 4 0

pyspark中的角色级tfidf？

我有一个由10m行组成的数据集： >>> df name job company 0 Amanda Arroyo Herbalist Norton-Castillo 1 Victoria Brown Outdoor activities/educatio…

兮子 2025-01-24 20:41:11 2 0

解析和进程1M＆＃x2B;行

我们正在编写一项可以解析包含1M+行的CSV文件的服务。每行都需要数据库记录的插入（或更新）数据。我们目前正在使用DynamoDB。哪些AWS服务最适合此？…

眼睛会笑 2025-01-24 17:27:51 2 0

我如何将巨大的文件拆分为bash中相等大小的块

我有一个大量的4GB数据文件，即523行＆amp; 2,655,566列。我想以同样分开的块来阅读整个文件。如何这样做，建议这里最好的方法，我只有522行和2,655,…

明媚如初 2025-01-24 16:57:45 2 0

如何使用SPARK读取某些镶木quet文件分区？

是否可以使用Spark从文件夹中读取某些分区？我只知道： df = spark.read.parquet（“/mnt/stating/file_name/”）是否有任何方法只能读取日期不小于…

梦里的微风 2025-01-23 21:48:08 2 0

row_sums vs findfreqterms用于子集termdocmatrix以包含具有给定最小频率的单词

我的问题很简单。我有一个（二进制）TDM，我想减少至少两个文档中出现的行的行数：我认为这两种方法会在二进制矩阵中产生相同的结果： > rowTotals =…

掩于岁月 2025-01-23 16:29:00 2 0

如何使用非常大的数据集训练KERAS模型？

我正在尝试使用TensorFlow和Keras训练自动编码器。我的培训数据具有超过200k的512x128未标记的图像。如果我想将数据加载到矩阵中，则其形状将为（2000…

隱形的亼 2025-01-23 10:29:58 5 0

创建具有多个列的Edgelist，n/as在R中

正在研究R。我看起来有点像这样： V1 V2 V3 V4 1 1 2 3 NA 2 2 3 NA NA 3 2 4 1 NA 4 1 NA NA NA 但是更大。我很难从这些数据中创建Edgelist并尝试…

〗斷ホ乔殘χμё〖 2025-01-23 09:14:12 2 0

如何使用Flink中的单个窗口进行多个汇总？

我是Flink的新手，我想做很多次在Spark中做的事情。例如，在Spark中，我可以在 ds.groupByKey(???).mapGroups(???) // aggregate 1 .groupByKey(???)…

素罗衫 2025-01-22 14:24:18 1 0

一个选择语句中的两个依赖的聚合函数是可能的吗？

let me show You a simple table at first: inr party_id ver 00020222 00020107 0001 00006692 00006693 0025 00021768 00006693 0006 00024726 000…

甜心 2025-01-22 07:12:19 2 0

将zip文件直接从网站上传到AWS S3存储桶？

是否可以将数据文件从网站直接上传到AWS S3存储桶，而不必先将文件下载到我的PC上？这些是大文件（60 GB），将我的PC绑起来一周下载，准备，然后将桌…

瑾夏年华 2025-01-21 10:32:11 3 0

返回在doc_count中未在elasticsearch中为0的数据

我正在Elasticsearch中过滤。我希望doc_count在非数据日期返回0，但根本不打印这些日期，只有带有数据的日期返回给我。你知道我该怎么做吗？这是Pytho…

擦肩而过的背影 2025-01-21 03:23:56 1 0

无法将 csv 文件中的两列与 R 分开

我尝试将两列添加到 R 的新 csv 文件中，问题是这两列位于 A 列中，而不是位于单独的列中，您可以看到我的代码和结果：在此处输入图片说明在此处输…

尤怨 2025-01-20 20:13:20 2 0

共 11 页
上一页
3
4
5
6
7
下一页

友情链接

文江博客