想要索引淘宝整站,有没有好点的方法?
在设计蜘蛛的时候,要注意些什么?比如索引的频率,JavaScript的识别,最大化模拟浏览器或者直接包装一个Webkit
在识别网页元素的时候,要注意些什么?比如价格的识别,商品描述的识别,卖家等级的识别
索引的结果放入文件还是NoSQL数据系统?Cassandra?Hbase?MangoDB?MySQL?
先对索引排序之后放入数据系统还是从数据系统中取得结果之后在搜索服务器上面进行排序,然后返回给浏览器?
新手,不懂太多...请高手,教育...指点...
谢先!!!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(8)
爬不下来啊 百度都不让爬 想获取数据也许啊 淘宝开放平台有接口 是不是全部数据不清楚
啊,赞同Tangtiantian的意见~
1.索引频率:根据你对数据的更新率决定。可以是3天-1周。一般采用增量方法(只更新变动的数据)。
2.JavaScript、元素识别、模拟浏览器:你的蜘蛛是否有此能力,是否有此必要。
我建议只要获取商品名、商品介绍、店铺名、店铺介绍等个重点内容就好。
3.数据存储:可以是文件的方式,也可以是数据库和文件相结合。
4.排序:索引后排序相当于排序一次,可供N个人使用。搜索后排序想当于N个人使用要排序N次。
最后,你索引淘宝整站的目的是什么? 存储商品、用户、商家的数据,还是要缓存每个页面?
如果只要数据,可以用淘宝的搜索功能来返回。如果要缓存每个页面我觉得没有必要:一、浪费空间 二、爬取的数据并不是能被用户利用的数据。你可以先缓存商品数据,如果有用户检索该商品的时候再决定缓存该商品对应的店铺。
在索引数据后还需要根据用户的浏览信息、数据热度进行二次排序和缓存。
如果你以缓存页面的方式直接供用户检索,那付出代价的将是用户。
以上纯粹个人观点。
抓多了封IP
是不是大家觉得这个想法不现实?
o(∩∩)o...哈哈,没有人懂,我也不懂,算是打酱油的
没有人回复么....额...这让我情何以堪...