当前位置：文江博客话题详情

想要索引淘宝整站,有没有好点的方法?

发布于 2021-11-28 09:32:09 字数 283 浏览 805 评论 8

在设计蜘蛛的时候,要注意些什么?比如索引的频率,JavaScript的识别,最大化模拟浏览器或者直接包装一个Webkit

在识别网页元素的时候,要注意些什么?比如价格的识别,商品描述的识别,卖家等级的识别

索引的结果放入文件还是NoSQL数据系统?Cassandra?Hbase?MangoDB?MySQL?

先对索引排序之后放入数据系统还是从数据系统中取得结果之后在搜索服务器上面进行排序,然后返回给浏览器?

新手,不懂太多...请高手,教育...指点...

谢先!!!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

羁拥 2021-12-01 15:10:29

回复收藏 0

岁吢 2021-12-01 15:10:14

爬不下来啊百度都不让爬想获取数据也许啊淘宝开放平台有接口是不是全部数据不清楚

回复收藏 0

冷清清 2021-12-01 15:07:59

啊，赞同Tangtiantian的意见～

回复收藏 0

緦唸λ蓇 2021-12-01 15:04:45

1.索引频率：根据你对数据的更新率决定。可以是3天-1周。一般采用增量方法（只更新变动的数据）。

2.JavaScript、元素识别、模拟浏览器：你的蜘蛛是否有此能力，是否有此必要。

我建议只要获取商品名、商品介绍、店铺名、店铺介绍等个重点内容就好。

3.数据存储：可以是文件的方式，也可以是数据库和文件相结合。

4.排序：索引后排序相当于排序一次，可供N个人使用。搜索后排序想当于N个人使用要排序N次。

最后，你索引淘宝整站的目的是什么？存储商品、用户、商家的数据，还是要缓存每个页面？

如果只要数据，可以用淘宝的搜索功能来返回。如果要缓存每个页面我觉得没有必要：一、浪费空间二、爬取的数据并不是能被用户利用的数据。你可以先缓存商品数据，如果有用户检索该商品的时候再决定缓存该商品对应的店铺。

在索引数据后还需要根据用户的浏览信息、数据热度进行二次排序和缓存。

如果你以缓存页面的方式直接供用户检索，那付出代价的将是用户。

以上纯粹个人观点。

回复收藏 0

流心雨 2021-12-01 14:53:02

抓多了封IP

回复收藏 0

清晨说ぺ晚安 2021-12-01 13:12:01

是不是大家觉得这个想法不现实?

回复收藏 0

居里长安 2021-12-01 12:46:31

o(∩∩)o...哈哈，没有人懂，我也不懂，算是打酱油的

回复收藏 0

为你鎻心 2021-11-29 20:23:34

没有人回复么....额...这让我情何以堪...

回复收藏 0

~没有更多了~

关于作者

爱的那么颓废

暂无简介

文章

773 人气

关注发私信

牛↙奶布丁

文章 0 评论 0

关注

COSO

文章 0 评论 0

关注

落叶

文章 0 评论 0

关注

暗地喜欢

文章 0 评论 0

关注

qq_i8qOEG

文章 0 评论 0

关注

qq_Wl4Sbi

文章 0 评论 0

友情链接

文江博客

想要索引淘宝整站,有没有好点的方法?

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签