使用胶的增量ETL

发布于 2025-01-22 14:20:33 字数 165 浏览 2 评论 0原文

在处理增量文件时需要帮助。

方案:源团队在S3中每1小时创建文件(HRLY分区)。我想在每4小时内进行处理。胶水ETL将读取S3文件(分区的HRLY)和流程以存储在不同的S3文件夹中。

注意:胶ETL从气流中调用。

问题如何确保我仅处理增量文件(假设每个执行中的4个文件)?

Need help in processing incremental files.

Scenario: Source team is creating file in every 1hr in s3 (hrly partitioned). I would like to process in every 4hr. The Glue etl will read the s3 files (partitioned hrly) and process to store in different s3 folders.

Note : Glue ETL is called from airflow.

Question How can I make sure that I only process the incremental files ( let’s say 4 files in each execution)?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

悸初 2025-01-29 14:20:33

听起来像 bookmarks

例如,您的ETL作业可能会在Amazon S3中阅读新分区
文件。 AWS胶水轨道可以分区的处理已处理
成功地防止重复处理和重复数据
乔布的目标数据存储。

Sounds like a use case for Bookmarks

For example, your ETL job might read new partitions in an Amazon S3
file. AWS Glue tracks which partitions the job has processed
successfully to prevent duplicate processing and duplicate data in the
job's target data store.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文