胶水/火花:过滤一个具有数千条条件的大型动态框架
我正在尝试用数百万行具有数据的数百万行滤波胶胶框架: id val ts a 1.3 2022-05-03T14:18:00.000Z a 9.2 2022-05-03T12:18:00.000Z c 8.2 2022-05-0…
无法从' awsglueml.transforms&#x27导入名称'
我是第一次使用 awsglueml 软件包用于使用类 fillmissingvalues 。我正在使用文档提到的胶水3.0导入ML软件包: from awsglueml.transforms import Fil…
通过AWS GLUE将文件转换XML到S3中的JSON
我的存储桶结构如下,并且在此S3存储夹文件夹中有XML文件降落。 S3:/Fin-app-ops/data-ops/raw-d 需要将这些XML文件转换为JSON文件,并在同一存储桶…
AWS胶Pyspark笔记本电脑错误(请求中包含的安全令牌已过期)
在运行SPARK作业时,我遇到了以下错误,用于将246GB的JSON文件(从S3)转换为Parquet文件(写入S3), 请帮助我解决如何解决此 …
将每行在火花数据框架中写入单独的JSON
我有一个相当大的数据框架(百万行),其要求是将每个行存储在单独的JSON文件中。 对于此数据框架, root |-- uniqueID: string |-- moreData: array …
记录大于AWS胶水中的拆分尺寸?
我是AWS胶水和Spark的新手。 我在此构建了我的ETL。 当将我的S3与200MB的文件连接时,大约没有读取此内容。 错误是该 An error was encountered: An e…
AWS胶 - iLlegalargumentException:路径的重复值
我有一个混乱的数据源,其中某些字段值可以带有两个不同的名称,但应映射到输出上的一个符合的字段名称。 例如,数据源包含 update_date 或 modified_…
非分区表模式未使用胶水ETL作业更新
我们有一个ETL作业,该作业使用以下代码片段来更新目录表: sink = glueContext.getSink(connection_type='s3', path=config['glue_s3_path_bc'], ena…
胶水动态框架解析文本文件,带有¶定界符
我有一个文本文件,如下所示。 HDR¶20200101 BDY¶1¶Jimmy BDY¶1¶Something TRL¶123 我想通过过滤标头预告片将其解析为胶水动态数据框。还将标题分配为…
SQL错误[XX000]:错误:频谱扫描错误:deltamanifest
我们已经实施了三角洲湖,但一个问题如下: 可以创建和摄取一个表,但是在摄入了新数据后,我们将频谱扫描错误: SQL错误[XX000]:错误:Spectrum扫描…
AWS胶图像证书相关的问题
我是Docker的新手。请帮助解决问题。 我已经创建了下面提到的Docker组成文件: version: "2" services: spark: image: glue/spark:latest container_n…
无法将CSV文件写入S3
sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session df = spark.read.csv("s3://bucket1/file1.csv", header=Tru…
如何优化S3的阅读?
dyf_pagewise_word_count = glueContext.create_dynamic_frame.from_options( connection_type="s3", format="csv", connection_options={ "paths": …
胶水秘密经理集成:未提供SecretID
我使用GlueEtl库从本地计算机运行胶水板脚本。 从Glue目录创建数据框时, dyf_user_book_reading_stat = glueContext.create_dynamic_frame.from_cata…
将AWS胶水动态框架写入红移表
我有一个动态框架和以下模式, root |-- source_id: long |-- scrape_timestamp_last: timestamp |-- scrap_timestamp_orig: timestamp |-- job_id_in…