非分区表模式未使用胶水ETL作业更新
我们有一个ETL作业,该作业使用以下代码片段来更新目录表: sink = glueContext.getSink(connection_type='s3', path=config['glue_s3_path_bc'], ena…
胶水动态框架解析文本文件,带有¶定界符
我有一个文本文件,如下所示。 HDR¶20200101 BDY¶1¶Jimmy BDY¶1¶Something TRL¶123 我想通过过滤标头预告片将其解析为胶水动态数据框。还将标题分配为…
AWS胶水可以使用IAM身份验证连接到Elasticsearch吗?
遵循本教程: https://docs.aws。 Amazon.com/glue/latest/ug/tutorial-elastisearch-connector.html 我知道使用此连接器可以连接到AWS Elasticsearch…
有什么办法可以在S3中获得Awsglue Libs?
我正在运行许多具有相同代码的胶水作业,所以我认为我会以S3桶移动代码,并将其称为common_code.py,然后从胶水作业中调用它。但是我在运行它时遇到了…
AWS胶水的EntityNotFoundException“ GET分区”
我试图通过CLI获取有关胶水隔板的元数据。我已经尝试关注 >但是我一直遇到以下错误: 在调用GetAttition操作时发生错误(EntityNotFoundException):…
PYSPARK-胶水3.0发行,升级Spark 3.0:1582-10-15之前的阅读日期或1900-01-01-01T00之前的时间戳:00:00 Z
升级到胶3.0 后,我在处理 rdd 对象时会出现以下错误 调用O926.javatopython时发生错误。你可能会得到一个 由于Spark 3.0的升级:阅读日期,结果不同 …
AWS Databricks定价 - 除DBU成本外,我们还应该为EC2实例支付吗?
我正在尝试在AWS环境中托管的AWS胶水和数据映之间进行一些成本比较。为了进行比较,我选择了M4.xlarge,相当于AWS胶(4 VCPU/16GB内存)中的1 dpu。 …
如何使用AWS Java SDK将检查站更改为AWS Glue Schema注册表中最新的模式版本
在AWS GLUE模式注册表中,模式演变兼容性检查仅针对第一个版本(具有检查点)进行。 如何使用AWS Java SDK将检查站更改为AWS Glue Schema注册表中最新…
我如何将动态动作传递给AWS胶合触发Terraform中的资源?
我正在尝试在Terraform中创建一个触发器,该触发器将运行具有几组不同参数的胶合作业。这些参数之一是基于任意数量的JSON字典。 问题是,当我尝试使用…
为什么我可以在AWS胶水中的自定义变换中的输出架构中查看摄入时间列?
我尝试使用 add_ingestion_time_columns https://docs.aws .amazon.com/glue/最新/dg/aws-glue-api-api-crawler-pyspark-extensions-extensions-glue-…
StreamingQueryException:错误时列表shards
我有一个Kinesis数据流,我想通过使用AWS胶将其插入AWS Redshift。我创建了爬行者来携带源表和目标表。 当我将记录保存在S3上而不是红移时。 但是,我…
如何在AWS胶水中连接和查询MySQL DB
我正在使用sqlalchemy创建连接和查询mysql db,但是,胶水似乎不支持“ sqlalchemy”甚至“ pymysql”。有没有办法在胶水python shell Jobs上执行此操…
胶水爬行者中排除的文件夹抛出hive_bad_data错误在雅典娜
我正在尝试创建一个胶水爬网来爬行特定的路径模式。我有以下路径: bucket/inference/2022/04/28/modelling/metadata.tar.gz bucket/inference/2022/0…
AWS ETL胶水工作
使用胶水ETL作业希望创建数据目录表和加载对象(如下所示)中的S3(分区)。表将是'data1's3 ://test/data1/2022/03/22/1.csv s3://test/data1/2022…