为什么我可以在AWS胶水中的自定义变换中的输出架构中查看摄入时间列？

发布于 2025-01-27 08:49:22 字数 1194 浏览 2 评论 0原文

我尝试使用 add_ingestion_time_columns https://docs.aws .amazon.com/glue/最新/dg/aws-glue-api-api-crawler-pyspark-extensions-extensions-glue-context.html＃aws-glue-api-api-api-crawler-crawler-pyspark-extensions-extensions-glue-lue-contensext-context-add-add-add-ingestion time -columns ）。我在AWS胶水中创建了一个作业，在其中加入了两个CSV文件，然后创建了一个自定义转换，尝试将这些新的时间列添加到我的输出中：

def MyTransform (glueContext, dfc) -> DynamicFrameCollection:
    FirstDataFrame = dfc.select(list(dfc.keys())[0]).toDF()
    dynamic_frame = DynamicFrame.fromDF(glueContext.add_ingestion_time_columns(FirstDataFrame, "hour"), glueContext, "DynamicFrameDateAndHour" )
    return DynamicFrameCollection ({"CustomTrasform": dynamic_frame}, glueContext)

我希望我可以在输出架构中看到新列，但看起来没有什么发生了。有人知道为什么，我应该更改添加此列吗？ Visual Job

原文

I try to add ingestion time columns to my Dynamic Frame using add_ingestion_time_columns (https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-glue-context.html#aws-glue-api-crawler-pyspark-extensions-glue-context-add-ingestion-time-columns).
I created a job in AWS Glue where I joined two csv files and then I created a Custom Transform where I try to add these new time columns to my output:

def MyTransform (glueContext, dfc) -> DynamicFrameCollection:
    FirstDataFrame = dfc.select(list(dfc.keys())[0]).toDF()
    dynamic_frame = DynamicFrame.fromDF(glueContext.add_ingestion_time_columns(FirstDataFrame, "hour"), glueContext, "DynamicFrameDateAndHour" )
    return DynamicFrameCollection ({"CustomTrasform": dynamic_frame}, glueContext)

I expected that I can see new columns in the Output schema but it looks like nothing happened. Does anyone know why and what should I change to add this columns?
visual job

分享到QQ

分享到微博