雅典娜在更新胶水数据目录中更新架构后仍指旧模式
我有一个JSON文件,该文件在字段名称中具有空格。胶水轨道能够在结构中推断并适当地创建字段。但是,当我在雅典娜询问这张桌子时,我会得到hive_metas…
AWS胶Redshift_tmp_dir尺寸生长
据我了解,将数据推向红移时,胶水将数据写入“ Temp” S3位置,然后从那里使用Redshift的副本。 我最近扫描了我们的S3存储桶,并注意到我们的一项工…
从AWS CLI中的本地文件加载参数
我正在尝试从AWS CLI创建胶水工作。当我在中使用实际的胶合作业名称 - 名称字段时,它可以 aws glue create-job \ --name my-first-glue-job-cli \ --…
Pyspark使用Pivot的用户保留量不同
我正在尝试使用Pyspark创建一个用户保留表,我可以将其转移到AWS胶水中,以创建一个可以在快速观察的ETL作业中查询的ETL作业。 基本上,我有两个表,…
如何优化S3的阅读?
dyf_pagewise_word_count = glueContext.create_dynamic_frame.from_options( connection_type="s3", format="csv", connection_options={ "paths": …
显示VSS代码远程资源管理器需要什么
我正在尝试使用VSS代码作为源代码控制器设置本地胶水环境。 我遵循链接中给出的说明 https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programmi…
AWS GLUE create_partition使用boto3成功,但雅典娜没有显示查询结果
我有一个使用Create_Partition()创建新分区的胶水脚本。胶水脚本正在成功运行,使用节目分区时,我可以在雅典娜控制台中看到分区。对于粘合脚本crea…
使用Pyspark处理大量小型JSON文件
我在的 376K json 文件中有 s3 的目录下的文件。这些文件是 2.5 kb 每个文件,仅包含一个记录/文件。当我尝试通过以下代码通过胶水ETL 使用 20工人: …
SecretsManager动态参考是否可在胶水云形象中起作用?
我试图 ({{resolve:secretsmanager:${DBSecretManagerArn}:SecretString:username}}) 在构建过程中使用Secret Manager Dynamion参考在胶水云形式中创…
胶水秘密经理集成:未提供SecretID
我使用GlueEtl库从本地计算机运行胶水板脚本。 从Glue目录创建数据框时, dyf_user_book_reading_stat = glueContext.create_dynamic_frame.from_cata…
使用Docker-Compose本地运行胶水容器
我想使用此命令 $ docker run -It -v〜/.aws:/home/glue_user/.aws -e aws_profile = $ profile_name -e disable_ssl = true -rm -p 4040:4040 -p 1…
如何通过使用胶作业使用Python将CloudWatch日志导出到S3?
我在粘合作业脚本中运行一个代码,在运行一些日志后,我需要通过使用GlueJob中的Python代码来存储S3存储桶的那些日志。是否可以。…
AWS雅典娜:带有非标准文件结构的S3存储桶的分区表
我是雅典娜的新手,我很难了解分区的工作原理以及它是否可以对我有用。 我以以下格式有S3中的文件: path/to/files/yyyymmddthhmmsssz_< id> …