aws-glue-spark

投稿关注

文章 0 浏览 1

胶水/火花：过滤一个具有数千条条件的大型动态框架

我正在尝试用数百万行具有数据的数百万行滤波胶胶框架： id val ts a 1.3 2022-05-03T14:18:00.000Z a 9.2 2022-05-03T12:18:00.000Z c 8.2 2022-05-0…

故事↓在人 2025-02-13 18:17:43 2 0

无法从＆＃x27; awsglueml.transforms＆＃x27导入名称＆＃x27;

我是第一次使用 awsglueml 软件包用于使用类 fillmissingvalues 。我正在使用文档提到的胶水3.0导入ML软件包： from awsglueml.transforms import Fil…

や三分注定 2025-02-09 12:42:16 3 0

通过AWS GLUE将文件转换XML到S3中的JSON

我的存储桶结构如下，并且在此S3存储夹文件夹中有XML文件降落。 S3：/Fin-app-ops/data-ops/raw-d 需要将这些XML文件转换为JSON文件，并在同一存储桶…

垂暮老矣 2025-02-08 17:52:28 3 0

AWS胶Pyspark笔记本电脑错误（请求中包含的安全令牌已过期）

在运行SPARK作业时，我遇到了以下错误，用于将246GB的JSON文件（从S3）转换为Parquet文件（写入S3），请帮助我解决如何解决此 …

终止放荡 2025-02-08 04:54:54 3 0

将每行在火花数据框架中写入单独的JSON

我有一个相当大的数据框架（百万行），其要求是将每个行存储在单独的JSON文件中。对于此数据框架， root |-- uniqueID: string |-- moreData: array …

灵芸 2025-02-02 21:00:35 4 0

记录大于AWS胶水中的拆分尺寸？

我是AWS胶水和Spark的新手。我在此构建了我的ETL。当将我的S3与200MB的文件连接时，大约没有读取此内容。错误是该 An error was encountered: An e…

烟酉 2025-01-31 11:01:26 6 0

AWS胶 - iLlegalargumentException：路径的重复值

我有一个混乱的数据源，其中某些字段值可以带有两个不同的名称，但应映射到输出上的一个符合的字段名称。例如，数据源包含 update_date 或 modified_…

不奢求什么 2025-01-29 11:27:31 4 0

非分区表模式未使用胶水ETL作业更新

我们有一个ETL作业，该作业使用以下代码片段来更新目录表： sink = glueContext.getSink(connection_type='s3', path=config['glue_s3_path_bc'], ena…

┼── 2025-01-28 20:37:22 6 0

胶水动态框架解析文本文件，带有＆＃xb6;定界符

我有一个文本文件，如下所示。 HDR¶20200101 BDY¶1¶Jimmy BDY¶1¶Something TRL¶123 我想通过过滤标头预告片将其解析为胶水动态数据框。还将标题分配为…

蝶…霜飞 2025-01-28 18:41:09 4 0

SQL错误[XX000]：错误：频谱扫描错误：deltamanifest

我们已经实施了三角洲湖，但一个问题如下：可以创建和摄取一个表，但是在摄入了新数据后，我们将频谱扫描错误： SQL错误[XX000]：错误：Spectrum扫描…

两人的回忆 2025-01-28 13:23:56 2 0

AWS胶图像证书相关的问题

我是Docker的新手。请帮助解决问题。我已经创建了下面提到的Docker组成文件： version: "2" services: spark: image: glue/spark:latest container_n…

呆橘 2025-01-28 11:53:23 3 0

无法将CSV文件写入S3

sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session df = spark.read.csv("s3://bucket1/file1.csv", header=Tru…

想你的星星会说话 2025-01-25 22:16:25 3 0

如何优化S3的阅读？

dyf_pagewise_word_count = glueContext.create_dynamic_frame.from_options( connection_type="s3", format="csv", connection_options={ "paths": …

自由范儿 2025-01-24 18:41:10 5 0

胶水秘密经理集成：未提供SecretID

我使用GlueEtl库从本地计算机运行胶水板脚本。从Glue目录创建数据框时， dyf_user_book_reading_stat = glueContext.create_dynamic_frame.from_cata…

妄司 2025-01-24 01:55:51 6 0

将AWS胶水动态框架写入红移表

我有一个动态框架和以下模式， root |-- source_id: long |-- scrape_timestamp_last: timestamp |-- scrap_timestamp_orig: timestamp |-- job_id_in…

梦回旧景 2025-01-23 09:50:06 4 0

共 2 页
1
2
下一页

友情链接

文江博客