当前位置：文江博客话题详情

在搜索引擎的实现中网络爬虫如何触发获取新的网页

发布于 2021-11-16 15:26:01 字数 290 浏览 718 评论 13

小弟我最近在学习搜索引擎方面的知识，想自己实现一个搜索引擎。但是想了很久有些问题不明白。

1 网络爬虫程序与用户搜索之间的关系，是不是爬虫程序先抓取互联网的数据，然后用户在已抓取的存放在本地的文件进行搜索？

2 用户提交了要搜索的词条，那如果互联网中的网页已经发生了改变，那么如何启动爬虫程序来获得最新的网页资源呢?

3 建立这种搜索引擎模型是不是要有客户端和服务器端，客户端用来提交请求获得结果，服务端用来启动爬虫程序同时建立索引数据库？

真心希望各位大牛能够帮助下我，实在很困惑~

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

白龙吟 2021-11-18 11:45:28

是的哦~不好弄

回复收藏 0

一人独醉 2021-11-18 11:45:26

我也在学呢，不过学得好纠结

回复收藏 0

落墨 2021-11-18 11:45:12

Lucene的文档要完善得多，相关支持模块也很多，结构和理念都是比较好的，值得看看。

回复收藏 0

苍暮颜 2021-11-18 11:44:54

嗯嗯~网上资料里面lucene比较全面，我也打算好好看看。这个爬虫的设计感觉还是很难的哦

回复收藏 0

想挽留 2021-11-18 11:42:44

嗯~好的，我现在去网上搜一下，看看

回复收藏 0

百思不得你姐 2021-11-18 11:42:13

建议你看一些这方面的书，最简单的好像有一本书叫《自己动手写搜索引擎》，里面有不少代码，但是比较简单。

或者看一些比较专业的书，我看过的几本书

《搜索引擎：信息检索实践》《Web数据挖掘》《深入搜索引擎：海量信息的压缩、索引和查询》

回复收藏 0

泛泛之交 2021-11-18 11:26:22

嗯，谢谢啊~我现在就在学习呢，想下如何实现根据权值定时启动爬虫程序获得网页数据

回复收藏 0

悟红尘 2021-11-18 11:22:25

看下这个项目:http://www.oschina.net/p/phpdig

回复收藏 0

妖妓 2021-11-18 10:45:26

好~有代码最好不过了，俺好好学习下

回复收藏 0

多情癖 2021-11-18 10:22:13

您好，我现在也在研究爬虫，在已经获得原网页的地址 http://dl.acm.org/ft_gateway.cfm?id=361973&type=pdf&coll=DL&dl=ACM&CFID=96880243&CFTOKEN=91674475后，怎么得到它自动跳转后的url啊，希望您指点一二，邮箱zhaochaoqun33@163.com，非常感谢！

回复收藏 0

疑心病 2021-11-18 09:45:58

好学生啊..虚心求教不错 ..建议你直接看一些简单爬虫程序的源码

回复收藏 0

执手闯天涯 2021-11-18 08:49:26

嗯嗯~我刚才试了下百度和谷歌，发现我以前写的文章都搜不到，才发现原理搜索引擎并不是一直在搜录新的网页信息。按照您的解释的话我就大概明白了，这个爬虫程序要根据一些值来定时启动。这个第3条从您的解答中，我理解的实际实现中，后台就进行获取数据建立各种索引（主要跑爬虫程序），前台从已有数据中提取用户需要的结果。谢谢您啊~使我大概有了一定的理解

回复收藏 0