想做一个简单的采集分析系统,但是数据之间的关系比较复杂,怎么来存储数据更适合?
嗯,简单的讲就是采集新浪微博的数据咯,但是各个微博数据之间的关系比较复杂,一个用户有很多条微博,一条微博的微博ID关联到所有与它相关的赞,转发,和评论,还有与微博相关的相册,本身@的人 ,然后每一条有关联到与之相关的用户,同时也包括@的人 ,等等等等。。。
然后我想要的就是,数据有一定量的时候,可以从任意条微博ID找到所有与其相关的人,包括赞转发评论,如果可以的话,可以做到两级,就是间接相关的人。A发布的微博B,C评论了,@了D,D的粉丝是E和F。也就是说A找到BCDEF,大概是这样子,当然为了更好的分析,需要保留一些其他信息,比如微博内容,发布时间,评论时间,来源等等等等
这是一个“想做一个简单的采集分析系统”吗?
一开始想想,MySQL?但是这么复杂的关系,我应该怎么建立这个模型。然后有微微了解到Mongodb好像可以以JSON的方式存储?这样是不是比较适合,插入和检索的时候,什么的
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(15)
推荐使用神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。
社交网络这里大嘛
尝试一下mongodb,或者楼上说的neo4j~
Mongodb可以做到的。用关系数据库的话要你能理清关系,能建模,如果你这方面你觉得有所难度的话,用非关系型的完全可以做到。
就是怕关系复杂了自己乱,而且sql语句也繁杂,,
就用关系数据库,然后上sql查~
MongoDB好用些还是有其他的没?
k-v db比较好
唉...这一块没学好,各种范式什么的都怎么明白
还是用关系数据库吧,好好设计模型
好像不错的样子,我了解了解~
回复
neo4j主要用于社交网站
回复
http://docs.neo4j.org.cn/ Neo4j简体中文手册 v1.8
回复
3ks~
社交网站的数据库可以试一下图引擎数据库,比如neo4j