用于比较高级语言（例如 Javascript）数据图中的相似性的数学库？

发布于 2024-09-19 17:02:49 字数 585 浏览 8 评论 0原文

我正在寻找一些我认为相当复杂并且可能不公开存在的东西，但希望它确实存在。

我基本上有一个包含很多项目的数据库，这些项目都有与其他值 (x) 相对应的值 (y)。例如。其中一项可能看起来像：

x | 1 | 2 | 3 | 4 | 5
y | 12 | 14 | 16 | 8 | 6

这只是一个随机示例。现在，有数千个这样的项目都有自己的一组 x 和 y 值。一个 x 和其后的 x 之间的范围不是固定的，并且对于每个项目可能有所不同。

我正在寻找的是一个库，我可以在其中插入所有这些 X 和 Y 集，并告诉它返回最常见的项目（遵循可比较曲线/级数的 x 和 y 集）之类的内容，以及能够检查某个集合是否与另一个集合至少有 x% 的可比性。

如果您要绘制数据图表，则“可比较”是指曲线的斜率。因此，实际上不是静态值，而是事件的检测，例如高增加然后缓慢减少等。

由于我在数学方面的经验较少，我不太确定我正在寻找的东西被称为，因此很难解释我需要什么。希望我给了足够的指示，让有人指出我正确的方向。

我最感兴趣的是 javascript 库，但如果没有这样的东西，任何库都会有帮助，也许我可以尝试移植我需要的东西。

原文

I'm looking for something that I guess is rather sophisticated and might not exist publicly, but hopefully it does.

I basically have a database with lots of items which all have values (y) that correspond to other values (x). Eg. one of these items might look like:

x | 1 | 2 | 3 | 4 | 5
y | 12 | 14 | 16 | 8 | 6

This is just a a random example. Now, there are thousands of these items all with their own set of x and y values. The range between one x and the x after that one is not fixed and may differ for every item.

What I'm looking for is a library where I can plugin all these sets of Xs and Ys and tell it to return things like the most common item (sets of x and y that follow a compareable curve / progression), and the ability to check whether a certain set is atleast x% compareable with another set.

With compareable I mean the slope of the curve if you would draw a graph of the data. So, not actaully the static values but rather the detection of events, such as a high increase followed by a slow decrease, etc.

Due to my low amount of experience in mathematics I'm not quite sure what I'm looking for is called, and thus have trouble explaining what I need. Hopefully I gave enough pointers for someone to point me into the right direction.

I'm mostly interested in a library for javascript, but if there is no such thing any library would help, maybe I can try to port what I need.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡莣 2024-09-26 17:02:49

再次关于马尔可夫集群（ing），我恰好是该集群的作者，以及您的应用程序。您提到您对对象之间的趋势相似性感兴趣。这通常使用 Pearson 相关性来计算。如果您使用 http://micans.org/mcl/ 中的 mcl 实现，您还将获得程序“mcxarray”。这可以用于计算表中的行之间的皮尔逊相关性。它可能对你有用。它能够处理丢失的数据——用一种简单的方法，它只是计算那些值对于两者都可用的索引的相关性。如果您还有其他问题，我很乐意回答——但需要注意的是，我通常喜欢将回复抄送至 mcl 邮件列表，以便将它们存档并可供将来参考。

回复收藏 0 原文

终陌 2024-09-26 17:02:49

您正在寻找的是马尔可夫聚类的实现。它通常用于查找相似序列的组。将其移植到 Javascript 中，好吧...如果您真的认真对待此分析，请尽快放弃 Javascript 并转向 R。Javascript 不适合进行此类计算，而且它对于它。 R 是一个已经实现了很多的统计软件包。它也是专门为非常快速的矩阵计算而设计的，并且大多数语言都是矢量化的（这意味着您不需要 for 循环来将函数应用于值向量，它会自动发生）

对于马尔可夫聚类，请检查 http://www.micans.org/mcl/
实现示例： http://www.orthomcl.org/cgi-bin/OrthoMclWeb .cgi

现在您还需要定义集合之间的“距离”。由于您对事件而不是值感兴趣，因此您可以为每个项目提供一个额外的属性，即具有差异 y[i] - y[i-1] （在 R 中： diff(y) ）的向量。然后，两个项目之间的距离可以计算为 y1[i] 和 y2[i] 之间的平方差之和。

这允许您构建项目的距离矩阵，并在该矩阵上调用 mcl 算法。除非你在 Linux 上工作，否则你必须移植它。

回复收藏 0 原文

萝莉病 2024-09-26 17:02:49

您想要做的是方差分析或方差分析。如果您通过方差分析测试运行这些数字，它将为您提供有关数据集的信息，帮助您将数据集与另一个数据集进行比较。我无法找到可以执行 ANOVA 的 Javascript 库，但有很多程序可以执行此操作。 Excel 可以通过插件执行方差分析。 R 是一个免费的统计包，也可以执行方差分析。

希望这有帮助。

回复收藏 0 原文