文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第39单元 网络分析序列
掌握了适当的定义和公式后,我们接下来开启网络数据分析的宏伟篇章。
典型的网络分析序列包括以下步骤。
(1) 首先,识别离散实体以及实体间的关系。实体转化为网络节点,而实体间的关系转化为网络的边。如果关系是二元的(例如存在和不存在),就可以直接定义出网络的边。如果关系不是二元的,而是连续的或离散的,可以将它们看作加权的边,或者只将值等于或高于阈值的关系转换为未加权的边。后一种转换称为抽样。抽样阈值是从经验和实用的角度来选择的。如果阈值太高,则网络会分解成很多小的连通量,显得过于稀疏;如果阈值太低,网络就会失去社区结构,变得混乱。
(2) 计算各种网络度量:密度、分量的数目、GCC的大小、直径、中心性和集聚系数等。
(3) 识别网络社区。如果网络最终是模块化的,就可以给社区分配标签,将社区替换为“超节点”,并在导出的新网络上开展研究。
(4) 最后,和任何其他数据科学实验一样,都要对结果进行解释,并生成一个包含许多吸引眼球的图片的报告。
networkx模块几乎提供了你开展典型网络研究所需要的一切,只有一个例外:它生成的图片毫无吸引力,坦率地讲,图片的质量相当可悲。为了得到更佳的可视化效果,可以使用Gephi(请参阅第40单元第2小节)。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论