当前位置：文江博客话题详情

同步两个异构数据库

发布于 2024-08-14 18:01:12 字数 111 浏览 7 评论 0原文

我有 2 个异构数据库。一种在 mysql 中，一种在 ms sql 中。

我想让他们保持同步。

数据会定期流动，信息流动将是双向的

有人有任何策略/方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

画▽骨i 2024-08-21 18:01:12

假设您不打算使用某种形式的现成解决方案，那么您有几个选择。基本上，您想要做的是找到一种方法来捕获一个数据库中所做的更改并将它们复制到另一个数据库中。

完整提取和 Delta
对要同步的表中的每一行进行按键排序的完整转储，并将其与上次运行同步的转储进行逐行比较。对输出进行排序可以使比较过程更快，因为您可以确定行是否已更改、删除或删除，而无需

优点：保证捕获所有更改。
优点：易于实施。
缺点：慢。
缺点：运行时会对数据库产生大量负载。

对于小型或中型数据库，此选项应该非常可行。

交易日志
分析数据库中的事务日志以找出更改的内容，并将这些更改应用到其他数据库。

优点：更快，因为它不需要从数据库中读取所有内容
优点：实施起来仍然相对简单
缺点：DBA 有时会清除日志以解决生产问题。这可能会导致错过未同步的更改。

如果您可以依赖可用的日志，这可能是个好主意。

触发器
使用触发器记录更改，并将其复制到其他数据库。

优点：快速，因为它只捕获更改。
缺点：增加每笔交易的开销

应用程序中的同步
只需确保应用程序写入两个数据库即可。

优点：数据库没有实际开销。
缺点：不可靠。所需要的只是一个人忘记写入两个数据库。

如果应用程序仅通过几个受控模块写入数据库（即没有太多地方会忘记更新两个数据库），则可以使此功能起作用。在管理较少的设置中（即多个应用程序/不受控制或结构不良的数据库访问/临时脚本），这根本不是一个选项。

回复收藏 0 原文

梦里°也失望 2024-08-21 18:01:12

阿南德，你可以在谷歌中找到这个。

同步 mysql 和 mssql

我没用过这个软件，但是他们提供免费试用

回复收藏 0 原文

莫相离 2024-08-21 18:01:12

首先需要更多信息：

您可以承受多少同步延迟？ 5秒？ 5小时？ 15小时？等等
数据库之间有多少转换？视图中没有可以处理的任何内容或琐碎的更改，还是更实质性的内容？
数据量是什么样的？表有多大，每天有多少数据变化，数据是否分区？
并发要求是什么？您可以关闭用户访问几分钟吗？
双向更改会发生在同一个表还是不同的表上？
数据质量要求是什么？如果两个不同的事务（每个事务都针对同一个表中的同一行但在不同的数据库中）大约在同一时间更新，并且一个事务在另一个事务上进行更新，这样可以吗？
粒度是多少？您是否需要复制发生的每个事务或仅复制某个时间点的当前快照（即使该时间点每 5 分钟一次）？

一般来说，如果您需要实时同步，那么您最终会得到复制解决方案。这通常可以处理非常少量的转换（通常通过存储过程发生）。它通常是嗅探日志的商业解决方案。由于大多数人不希望代码依赖于日志格式，因此他们几乎总是使用打包的解决方案。

如果您不需要实时同步、拥有大量数据或有重大转换要求，那么您最终会选择 ETL 解决方案。有很多可供选择，但它们大多是商业的。另一方面，如果您花时间了解最佳实践，那么您自己开发它们并不困难。奇怪的是，实际上并没有太多谈论。不管怎样，Adam Luchjenbroers 很好地识别了大多数 ETL 方法。如果您能够承受快照之间的松散事务，我建议您使用文件增量方法 - 因为它是最准确的方法，因为所有其他方法都依赖于时间戳、触发器或日志，而这些方法无法捕获所有更改。

First more info is needed:

how much latency in the syncrhonization can you afford? 5 seconds? 5 hours? 15 hours? etc.
how much transformation between databases? Nothing or trivial changes that can be handled in a view, or something more substantial?
what do the data volumes look like? How large are the tables, how much data changes daily, and is the data partitioned?
what are the concurrency requirements? Can you shut off user access for a few minutes?
will bi-directional changes be occurring to the same table or to different tables?
what are the data quality requirements? is it ok if two different transactions, each to the same row in the same table but in different databases gets updated at about the same time - and one steps on the other?
what is the granularity? do you need to replicate each transaction that occurs or just the current snapshot at a point in time (even if that point in time is every 5 minutes)?

In general, if you need real-time synchronization then you end up with a replication solution. This can typically handle a very small amount of transformation (usually happens via stored procs). It is typically a commercial solution that sniffs logs. Since most people don't want to have a code dependency on log formats they almost always go with a packaged solution.

If you don't need real-time synchronization, have vast data volumes or have significant transformation requirements then you end up with an ETL solution. There are quite a few to choose from, but they are mostly commercial. On the other hand, they aren't difficult to develop yourself - if you take the time to understand best practices. Which oddly enough, really aren't talked about much. Anyhow, Adam Luchjenbroers did a good job identifying most of the approaches with ETL. I recommend the file delta approach if you can afford to loose transactions between snapshots - since it is otherwise the most accurate approach since all of the others rely on timestamps, triggers or logs which do not capture all changes.

回复收藏 0 原文