数据可视化：气泡图、维恩图和标签云（天哪！）

发布于 2024-09-09 08:18:29 字数 1101 浏览 9 评论 0原文

假设我有一个很大的对象列表（数千或数万），每个对象都带有一些标签。有数十或数百个可能的标签，它们的使用遵循典型的幂律：有些标签使用非常频繁，但大多数很少使用。事实上，除了最常见的几十个标签之外的所有标签通常都可以被忽略。

现在的问题是如何可视化这些标签之间的关系。标签云是它们频率的很好的可视化，但它忽略了哪些标签与哪些其他标签一起出现。假设标记 :bar 仅出现在也标记为 :foo 的对象上。这应该是视觉上显而易见的。对于往往一起出现的三个标签也是如此。

您可以使每个标签成为一个气泡，并让它们部分重叠。从技术上讲，这是一个维恩图，但以这种方式处理它可能很笨拙。例如，Google 图表可以创建维恩图，但仅限 3 个或更少的集合（标签）： http://code.google.com/apis/chart/docs/图库/venn_charts.html
他们将其限制为 3 组的原因是，如果超过 3 组，看起来就会很可怕。请参阅维基百科页面上的“扩展至更高数量的集合”：http://en.wikipedia.org/ wiki/Venn_diagrams

但这前提是每个可能的交集都非空。如果同时出现的标签不超过 3 个（可能是在丢弃稀有标签之后），则可以使用维恩图集合（气泡的大小代表标签频率）。

或者可能是一个图形（如顶点和边），具有视觉上较厚或较薄的边缘来表示共现的频率。

您有什么想法或者工具或库的建议吗？理想情况下，我会使用 javascript 来完成此操作，但我对 R 和 Mathematica 或其他任何东西都持开放态度。如果有人好奇的话，我很乐意分享一些实际数据（如果我告诉你它代表什么，你会笑的）。

附录：我最初想到的应用程序是TagTime，但我突然想到这也是很好地映射到可视化一个人的美味书签的问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

数理化全能战士 2024-09-16 08:18:29

如果我正确理解你的问题，图像矩阵在这里应该可以很好地工作。我想到的实现是一个 nxm 矩阵，其中标记的项目是行，每个标记类型是一个单独的列。矩阵中的每个单元格都完全由“1”和“0”组成，即特定项目要么具有给定标签，要么没有。

在下面的矩阵中（我将其旋转了 90 度，以便它更适合此窗口 - 因此列实际上代表标记的项目，每行显示所有项目中给定标签的存在或不存在），我模拟了以下场景：有 8 个标签 和 200 个带标签的项目。，“0”为蓝色，“1”为浅黄色。

该矩阵中的所有值都是随机选择的（每个标记项目是从一个盒子中抽取的八个标记，该盒子由两个令牌组成，一个蓝色，一个黄色（分别没有标签和标签）。因此，这里没有任何模式的视觉证据，这并不奇怪，但是如果您的数据中有这样一个技术，实现起来非常简单，可以帮助您找到它。

我使用 R 来生成和绘制模拟数据，仅使用基本图形（没有外部包）。或库）：

# create the matrix
A = matrix(data=r1, nrow=1, ncol=8)

# populate it with random data
for (i in seq(0, 200, 1)){r1 = sample(0:1, 8, replace=TRUE); A = rbind(A, r1)}

# now plot it
image(z=A, ann=F, axes=F, col=topo.colors(12))

If i understand your question correctly, an image matrix should work nicely here. The implementation i have in mind would be an n x m matrix in which the tagged items are rows, and each tags type is a separate column. Every cell in the matrix would consist entirely of "1's" and "0's", i.e., a particular item either has a given tag or it doesn't.

In the matrix below (which i rotated 90 degrees so it would fit better in this window--so columns actually represent tagged items, and each row shows the presence or absence of a given tag across all items), i simulated the scenario in which there are 8 tags and 200 tagged items. , a "0" is blue and a "1" is light yellow.

All values in this matrix were randomly selected (each tagged item is eight draws from a box consisting of two tokens, one blue and one yellow (no tag and tag, respectively). So not surprisingly there's no visual evidence of a pattern here, but if there is one in your data, this technique, which is dead simple to implement, can help you find it.

I used R to generate and plot the simulated data, using only base graphics (no external packages or libraries):

# create the matrix
A = matrix(data=r1, nrow=1, ncol=8)

# populate it with random data
for (i in seq(0, 200, 1)){r1 = sample(0:1, 8, replace=TRUE); A = rbind(A, r1)}

# now plot it
image(z=A, ann=F, axes=F, col=topo.colors(12))

回复收藏 0 原文

酒几许 2024-09-16 08:18:29

如果您的目标是网络，我会创建一些这样的。连接节点的边缘可以更厚或更暗，或者连接它们的力可能更强，因此它们的距离很近。我还会在圆圈内添加标签名称。

一些对此非常有用的库包括：

Protovis (Javascript)
Flare (Adobe Flash)

其他一些值得研究的有趣的 javascript 库是：

回复收藏 0 原文

伊面 2024-09-16 08:18:29

虽然这是一个老话题，但我今天才看到它。

您可能还需要考虑使用自组织地图。

这是世界贫困自组织地图的示例。它使用了 39 个你所谓的“标签”来排列你所谓的“对象”。

http://www.cis.hut.fi/research/som-研究/povertymap.gif
自组织世界贫困地图

回复收藏 0 原文

演多会厌 2024-09-16 08:18:29

请注意，它肯定会起作用，因为我没有测试这一点，但我是这样开始的：

您可以按照 doug 在他的答案中建议的那样创建一个矩阵，但不是将文档作为行，将标签作为列，而是采用一个方阵，其中标签是行和列。单元格 T1;T2 的值将是同时标记有 T1 和 T2 的文档数量（请注意，通过这样做，您将获得一个对称矩阵，因为 [T1;T2] 将具有与 [T2;T1] 相同的值） .
完成此操作后，每行（或列）都是一个向量，将标签定位在 T 维空间中。在这个空间中彼此靠近的标签经常一起出现。为了可视化共现，您可以使用降低空间维度的方法或任何聚类方法。例如，您可以使用 kohonen 自组织映射将 T 维空间投影到 2D 空间，然后您将得到一个 2D 矩阵，其中每个单元代表标签空间中的一个抽象向量（这意味着该向量不一定存在）在您的数据集中）。该向量反映了源空间的拓扑约束，并且可以被视为反映某些标签的显着共现的“模型”向量。此外，此地图上彼此靠近的单元将表示源空间中彼此靠近的向量，从而允许您将标签空间映射到 2D 矩阵上。
矩阵的最终可视化可以通过多种方式完成，但如果没有首先看到先前处理的结果，我无法给您建议。

回复收藏 0 原文

~没有更多了~