将旧 EAV 模式转换为 Mongo 或 Couch

发布于 2024-11-02 04:20:17 字数 478 浏览 6 评论 0原文

假设我有一个遗留应用程序，由于各种原因，以前的开发人员决定必须有一个任意灵活的模式，并且他们再次重新发明了实体-属性-值模型。他们实际上试图建立一个文档存储库，像 Mongo 或 Couch 这样的工具现在更适合当今的世界，但以前的团队不可用或不知道。

为了保持竞争力，假设我们需要构建更强大的方法来查询和分析系统中的信息。基于属性的绝对数量和多样性，与逐渐将系统重构为更相关的模式相比，map/reduce 似乎更适合我们的问题集。

原始源数据库拥有数百万个文档，但只有少量不同的文档类型。不同的文档类型有一些共同点。

从 MySql 等大规模 EAV 实现迁移到 Mongo 或 Couch 等面向文档的存储的有效策略是什么？

我当然可以想象一种解决此问题的方法，但我真的很想看到教程或战争故事，以便向已经解决过此类问题的人学习。

有哪些有效的策略可以实现这种转换？你学到了什么教训？我应该避免哪些陷阱？您如何处理仍然希望能够与现有数据库交互的遗留应用程序？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

森末i 2024-11-09 04:20:17

我第一次使用 Couch 是在编写了 Ruby 和 Postgres 网络爬虫（定向爬取 mp3 博客以构建推荐引擎）之后。

当我尝试记录 ID3 元数据、音频签名等时，关系模式变得非常粗糙，并且检测重叠并以其他方式进行重复数据删除。它有效，但速度很慢。由于速度太慢，我开始将 JSON API 行作为 blob 字段缓存到相应的主 ActiveRecord 对象上。

我有一个选择：深入研究并学习 Postgres 性能调优，或者转向横向方法。因此，我使用 Nutch 和 Hadoop 来抓取网络，并使用 PipeMapper 使用 Ruby / Hpricot 来解析页面。因此，我能够重用所有解析器代码，只需将其从另存为规范化数据库更改为另存为 JSON。我编写了一个名为 CouchRest 的小库来处理 JSON 和 REST URL 端点，我用它来将 Hpricot 结果保存到 CouchDB 中。

对于该项目，我只是在单个 EC2 节点上运行 Couch，并填充一个小型 6 节点 Hadoop 集群。直到我开始为蜘蛛数据构建浏览界面时，我才真正对查询功能有了很好的感觉。

事实证明，我很灵活，特别适合 OLTP 应用程序，我很快开始在我的所有项目中使用它，并最终与两位创建者围绕该技术创立了一家公司。

回复收藏 0 原文

~没有更多了~