当前位置：文江博客话题详情

对数据库存储的信息实施复杂的算法

发布于 2024-09-08 20:43:06 字数 291 浏览 5 评论 0原文

我试图找出对关系数据库中存储的信息实施复杂算法的最佳实践。

具体来说：我想在包含许多文档的 TFxIDF 向量的大型 MS SQL Server 数据库上实现 k-means 算法（文档聚类算法）的变体（这些向量用作算法的输入）。

我的第一个想法是使用存储过程、函数、视图和所有其他基本 SQL Server 工具在 SQL 中完成整个操作，但后来我想也许我应该编写将在SQL 服务器。

性能是这里的一个问题，所以我也需要考虑这一点。

我将不胜感激任何关于我应该走的道路的建议。

谢谢你！

需要登录才能够评论，你可以免费注册一个本站的账号。

性能是一个问题

而且始终如此。在查看此类代码时，您必须考虑两种相反的趋势：

另一方面：

这些计算很少单独发生。您必须考虑整个服务器的性能，并且您的数据库通常是数据中心中负载最重的服务器。从技术和业务角度来看，它也是最难扩展的。技术性的，因为您必须平衡多个不同的组件，包括磁盘、RAM 和 CPU，而且了解瓶颈在哪里并不总是那么容易。此外，这些机器往往是“大型”机器，组织中没有多少人有调优经验。最后，它们通常不能很好地扩展。您无法像添加应用程序服务器那样轻松地添加另一个数据库服务器来分担负载。从商业角度来看，所有这些技术上的繁琐内容都会增加成本。不仅如此，数据库许可证本身通常每个 CPU 都有数千个。

将这两点放在一起，获得性能的最佳方法通常是使用数据库中的查询功能来提取您真正需要的记录子集，并且可能进行一些更简单的预处理 - 简单的预处理水果，如果你愿意的话。然后在应用程序服务器上完成繁重的工作，如果可能的话并行完成。

~没有更多了~