如何对无标度图进行采样

发布于 2024-09-29 22:16:47 字数 497 浏览 7 评论 0原文

给定一个大型无标度图（社交网络图），对其进行采样以使样本保留原始属性的可接受的抽象的最佳方法是什么？

我有一个大图（Munmun 的 Twitter 数据集，如果你知道的话）。但我需要该图的一个连接样本，具有相当大的直径（tl;dr...为什么应要求...直径为 10 会很好）。

问题是任何广度优先搜索总是可能遇到一些大规模连接的节点。所以我开始这样的搜索，获取我遇到的所有节点的朋友。我不可避免地会遇到一些大规模连接的节点，并且必须找到它们所有的朋友。这是一个问题，因为我最终得到了图中彼此靠近的大量节点。为了使编程分析可行，我必须限制节点（和边）的数量。这个练习的重点是找到节点之间的最短路径，所以我通常对节点的所有邻居感兴趣。这就是问题所在。

解决这个问题的一种技巧是限制最大值。连接到我感兴趣的用户的节点数量。例如，如果我在广度优先搜索中遇到@barackobama，我确保只接受他的一小部分朋友，而忽略其余的。但是这个被黑的图表值得一去吗，还是我在寻找最短路径方面丢失了太多信息？

希望这是有道理的...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

任谁 2024-10-06 22:16:47

存在多种采样方法，如何选择一种方法取决于（除其他外）您想要保留的属性。我在论文复杂网络中的采样和推理中找到了文献综述（第3节）[ Maiya '11] 就此而言，信息非常丰富。

但您似乎已经找到了一种对网络进行采样的方法，现在您想了解样本是否能够代表整个图的最短路径。您可以尝试看看这篇论文：复杂网络测量：估计相关性观察到的属性 [Latapy &马尼安'08]。他们描述了一种评估样本代表性的方法，涉及各种经典拓扑特性。总结他们的方法，他们最初可以访问整个研究网络，并随着样本量的增加，对这些数据模拟一些采样过程。他们监控属性如何根据样本大小演变，并在感兴趣的属性足够稳定时决定适当的大小。他们的工具在线免费提供。

编辑：我可以在网上找到的唯一现成的工具是 Albatross 。相关文章Albatross Sampling: Robust and effective Hybrid Vertex Sampling for Social Graphs [Jin et al. '11] 还包含对现有采样方法的精彩回顾，其中一些方法在他们提供的源代码中实现。

编辑2：我需要在Linux系统上使用Albatross，所以我做了一个Java移植。它很原始，但看起来效果很好。它可以在 GitHub 上找到：https://github.com/vlabatut/Albatross