使用胶的增量ETL
在处理增量文件时需要帮助。
方案:源团队在S3中每1小时创建文件(HRLY分区)。我想在每4小时内进行处理。胶水ETL将读取S3文件(分区的HRLY)和流程以存储在不同的S3文件夹中。
注意:胶ETL从气流中调用。
问题如何确保我仅处理增量文件(假设每个执行中的4个文件)?
Need help in processing incremental files.
Scenario: Source team is creating file in every 1hr in s3 (hrly partitioned). I would like to process in every 4hr. The Glue etl will read the s3 files (partitioned hrly) and process to store in different s3 folders.
Note : Glue ETL is called from airflow.
Question How can I make sure that I only process the incremental files ( let’s say 4 files in each execution)?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
听起来像 bookmarks
Sounds like a use case for Bookmarks