如何从 .csv 文件重建关系数据库？

发布于 2024-12-13 00:57:47 字数 837 浏览 1 评论 0原文

我有超过 1.5TB 的数据，我被告知这些数据来自某种关系数据库。不幸的是，在这一过程中，使关系数据库成为关系的所有内容都被删除了，我们剩下的几乎是 50 个 .csv 文件，每个文件都对应于数据库中的一个表。没有架构，没有注释，只有一份有用的文档。使问题更加复杂的是，我们无法联系维护数据库的人员，也无法询问他们 CX_CUST_O 中的 X_ATTRIB_14 意味着什么。

我们确实有一个文件，列出了每个属性的名称和数据类型，这涵盖了所有表，因此我们至少知道属性是什么。它看起来像

TABLE_NAME

ROW_ID......................VARCHAR2(32)

CREATED...... ..VARCHAR2(16)

LAST_MODIFIED.........DATE

等等

数据非常零散，许多属性在任何字段中都没有列出数据，还有很多无用的名称，如 ATTRIB_3。每个表都有一个 ROW_ID、CREATED 和 CREATED_BY，以及一个 CONFLICT_ID。然后是数据字段，这些字段通常是零散的，并且仅部分填充，并且有很多空值。

到目前为止，我已经完成了一些基本的预处理，通过消除没有值的属性并检查是否存在可以给我们提示的简单命名约定 - 例如，如果 TABLE_A 中的 X_ATTRIB_3 与 TABLE_B 中的 X_ATTRIB_3 相同，看起来唯一的共同属性是那些微不足道的属性 - 例如，LONGITUDE 在几个表中很常见，但这不太可能有帮助。我不确定如何继续；数据的庞大规模使得不可能用手查看所有内容。

是否已经开发出任何工具或技术可以帮助重建表之间的关系，或者这种情况是否非常罕见，以至于我们必须从头开始？

感谢您抽出时间。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

迷爱 2024-12-20 00:57:47

如果不深入了解数据本身的性质，就很难重建复杂数据结构的关系。必须手动重建关系，并且为了正确地重建关系，不应修改数据。在大多数数据库模式设计中，设计者将在记录 ID 和易于索引的数据（通常是任意数字）之间创建关系。要做的第一件事是以原始形式将内容添加到数据库中，按原样！然后，根据您对数据的启发式理解，根据您打算对数据执行的查询创建有意义的关系。您可能需要专业帮助才能做到这一点:-) — 实际上，您最好不要使用任何自动构建工具来处理原始数据；当您将数据转储为 CSV 等格式然后尝试重建时，信息丢失可能会非常微妙。

回复收藏 0 原文

~没有更多了~