当前位置：文江博客话题详情

使用 SQL Server 作为数据源的 MapReduce

发布于 2024-12-11 21:50:40 字数 808 浏览 0 评论 0原文

我目前正在研究使用 MapReduce 在 SQL Server 中维护增量视图构建的可能性。

基本上，使用 MapReduce 创建物化视图。

我有点卡atm了。考虑如何对我的 map 输出进行分区。现在，我并没有真正遇到大数据情况，最大大约为 50 GB，但我有很多复杂性和隐含的性能问题。我想看看我的这种 MapReduce/NoSQL 方法是否会成功。

我目前遇到的关于 MapReduce 的问题是分区。由于我使用 SQL Server 作为数据源，数据局部性并不是我真正的问题，因此我不需要将数据发送到各处，相反，每个工作人员应该能够检索数据的一个分区基于map定义。

我打算通过使用LINQ或者实体框架之类的东西来完全映射数据，只是为了提供一个熟悉的界面，这有点离题，但这是我当前正在探索的路线。

现在，我如何分割我的数据？我有一个主键，我有表达式树（AST，如果您不熟悉 LINQ）方面的 map 和 reduce 定义。

首先，我如何设计一种方法来分割整个输入并对初始问题进行分区（我想我应该能够利用 SQL Server 中的窗口聚合，例如 ROW_NUMBER 和TILE）。
其次，更重要的是，我如何确保逐步执行此操作？也就是说，如果我添加或更改原始问题，我如何有效地确保最大限度地减少需要进行的重新计算量？

我一直在寻找 CouchDB 的灵感，他们似乎有办法做到这一点，但我如何使用 SQL Server 来利用其中的一些优点呢？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

左岸枫 2024-12-18 21:50:40

我面临着类似的事情。我认为你应该忘记窗口函数，因为它使你的进程序列化。换句话说，所有工作人员都将等待查询。

我们已经测试过并且它的“工作”是将数据分区到更多表中（每个月都有 x 个表）并在这些分区上运行单独的分析线程。在Reduce之后标记已处理/未处理/可能坏的/等数据。

使用一个分区表进行测试会带来锁定升级问题。

您肯定会为当前的解决方案增加一点复杂性。

回复收藏 0 原文

~没有更多了~

关于作者

等待我真够勒

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

使用 SQL Server 作为数据源的 MapReduce

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

使用 SQL Server 作为数据源的 MapReduce

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。