aws-glue-spark

aws-glue-spark

文章 0 浏览 1

胶水/火花:过滤一个具有数千条条件的大型动态框架

我正在尝试用数百万行具有数据的数百万行滤波胶胶框架: id val ts a 1.3 2022-05-03T14:18:00.000Z a 9.2 2022-05-03T12:18:00.000Z c 8.2 2022-05-0…

故事↓在人 2025-02-13 18:17:43 2 0

无法从' awsglueml.transforms&#x27导入名称'

我是第一次使用 awsglueml 软件包用于使用类 fillmissingvalues 。我正在使用文档提到的胶水3.0导入ML软件包: from awsglueml.transforms import Fil…

や三分注定 2025-02-09 12:42:16 3 0

通过AWS GLUE将文件转换XML到S3中的JSON

我的存储桶结构如下,并且在此S3存储夹文件夹中有XML文件降落。 S3:/Fin-app-ops/data-ops/raw-d 需要将这些XML文件转换为JSON文件,并在同一存储桶…

垂暮老矣 2025-02-08 17:52:28 3 0

AWS胶Pyspark笔记本电脑错误(请求中包含的安全令牌已过期)

在运行SPARK作业时,我遇到了以下错误,用于将246GB的JSON文件(从S3)转换为Parquet文件(写入S3), 请帮助我解决如何解决此 …

终止放荡 2025-02-08 04:54:54 3 0

将每行在火花数据框架中写入单独的JSON

我有一个相当大的数据框架(百万行),其要求是将每个行存储在单独的JSON文件中。 对于此数据框架, root |-- uniqueID: string |-- moreData: array …

灵芸 2025-02-02 21:00:35 4 0

记录大于AWS胶水中的拆分尺寸?

我是AWS胶水和Spark的新手。 我在此构建了我的ETL。 当将我的S3与200MB的文件连接时,大约没有读取此内容。 错误是该 An error was encountered: An e…

烟酉 2025-01-31 11:01:26 6 0

AWS胶 - iLlegalargumentException:路径的重复值

我有一个混乱的数据源,其中某些字段值可以带有两个不同的名称,但应映射到输出上的一个符合的字段名称。 例如,数据源包含 update_date 或 modified_…

不奢求什么 2025-01-29 11:27:31 4 0

非分区表模式未使用胶水ETL作业更新

我们有一个ETL作业,该作业使用以下代码片段来更新目录表: sink = glueContext.getSink(connection_type='s3', path=config['glue_s3_path_bc'], ena…

┼── 2025-01-28 20:37:22 6 0

胶水动态框架解析文本文件,带有¶定界符

我有一个文本文件,如下所示。 HDR¶20200101 BDY¶1¶Jimmy BDY¶1¶Something TRL¶123 我想通过过滤标头预告片将其解析为胶水动态数据框。还将标题分配为…

蝶…霜飞 2025-01-28 18:41:09 4 0

SQL错误[XX000]:错误:频谱扫描错误:deltamanifest

我们已经实施了三角洲湖,但一个问题如下: 可以创建和摄取一个表,但是在摄入了新数据后,我们将频谱扫描错误: SQL错误[XX000]:错误:Spectrum扫描…

两人的回忆 2025-01-28 13:23:56 2 0

AWS胶图像证书相关的问题

我是Docker的新手。请帮助解决问题。 我已经创建了下面提到的Docker组成文件: version: "2" services: spark: image: glue/spark:latest container_n…

呆橘 2025-01-28 11:53:23 3 0

无法将CSV文件写入S3

sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session df = spark.read.csv("s3://bucket1/file1.csv", header=Tru…

想你的星星会说话 2025-01-25 22:16:25 3 0

如何优化S3的阅读?

dyf_pagewise_word_count = glueContext.create_dynamic_frame.from_options( connection_type="s3", format="csv", connection_options={ "paths": …

自由范儿 2025-01-24 18:41:10 5 0

胶水秘密经理集成:未提供SecretID

我使用GlueEtl库从本地计算机运行胶水板脚本。 从Glue目录创建数据框时, dyf_user_book_reading_stat = glueContext.create_dynamic_frame.from_cata…

妄司 2025-01-24 01:55:51 6 0

将AWS胶水动态框架写入红移表

我有一个动态框架和以下模式, root |-- source_id: long |-- scrape_timestamp_last: timestamp |-- scrap_timestamp_orig: timestamp |-- job_id_in…

梦回旧景 2025-01-23 09:50:06 4 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文