如何捕获awsglue中的数据变化？

发布于 2025-01-20 09:11:54 字数 125 浏览 4 评论 0原文

我们在本地 sql-server 中有源数据。我们使用 AWSglue 从 sql-server 获取数据并将其放置到 S3。谁能帮助我们如何在 AWS Glue 中实现变更数据捕获？

注意-我们不想使用 AWS DMS。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

待＂谢繁草 2025-01-27 09:11:54

您可以利用 AWS DMS for CDC，然后使用 Apache IceBerg 与 Glue Data Catalog 连接来实现此目的：
https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/< /a>

回复收藏 0 原文

榆西 2025-01-27 09:11:54

我只知道粘合书签。他们将为您提供新的记录（插入），但不会帮助您使用通常使用真正的CDC解决方案获得的更新和删除。

不确定您的用例，但是您可以查看以下项目。它具有相当有效的差异功能，并且有了正确的选项，可以为您提供类似CDC的输出

https://github.com/g-research/spark-extension/blob/master/master/diff.md.md

回复收藏 0 原文

假装爱人 2025-01-27 09:11:54

不可能通过直接粘合数据提取来实现变更数据捕获。虽然作业书签可以帮助您识别插入和更新（如果您的表包含 update_at 时间戳列），但它不会涵盖删除情况。您实际上需要一个 CDC 解决方案。

虽然 AWS 胶水直接连接到数据库源是一个很好的解决方案，但由于成本问题，我强烈建议不要使用它来进行增量数据提取。这就像用卡车运送一瓶饮用水一样。

正如您已经评论的那样，我也不喜欢 AWS DMS，但更喜欢强大的 CDC 解决方案，例如 Debezium 可能是一个完美的解决方案。它与 kafka 和 Kinesis 集成。您可以轻松地将流直接下沉到 s3。 Debezium 使您能够捕获删除并附加特殊的布尔值 < code>__delete 列添加到您的数据中，以便您的glue etl 可以使用此字段管理这些已删除记录的删除。

回复收藏 0 原文

~没有更多了~