在搜索引擎的实现中网络爬虫如何触发获取新的网页

发布于 2021-11-16 15:26:01 字数 290 浏览 712 评论 13

小弟我最近在学习搜索引擎方面的知识,想自己实现一个搜索引擎。但是想了很久有些问题不明白。

1 网络爬虫程序与用户搜索之间的关系,是不是爬虫程序先抓取互联网的数据,然后用户在已抓取的存放在本地的文件进行搜索?

2 用户提交了要搜索的词条,那如果互联网中的网页已经发生了改变,那么如何启动爬虫程序来获得最新的网页资源呢?

3 建立这种搜索引擎模型 是不是要有客户端和服务器端,客户端用来提交请求获得结果,服务端用来启动爬虫程序同时建立索引数据库?

真心希望各位大牛能够帮助下我,实在很困惑~

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(13

白龙吟 2021-11-18 11:45:28

是的哦~不好弄

一人独醉 2021-11-18 11:45:26

我也在学呢,不过学得好纠结

落墨 2021-11-18 11:45:12

Lucene的文档要完善得多,相关支持模块也很多,结构和理念都是比较好的,值得看看。

苍暮颜 2021-11-18 11:44:54

嗯嗯~网上资料里面lucene比较全面,我也打算好好看看。这个爬虫的设计感觉还是很难的哦

想挽留 2021-11-18 11:42:44

嗯~好的,我现在去网上搜一下,看看

百思不得你姐 2021-11-18 11:42:13

建议你看一些这方面的书,最简单的好像有一本书叫《自己动手写搜索引擎》,里面有不少代码,但是比较简单。

或者看一些比较专业的书,我看过的几本书

《搜索引擎:信息检索实践》《Web数据挖掘》《深入搜索引擎:海量信息的压缩、索引和查询》

泛泛之交 2021-11-18 11:26:22

嗯,谢谢啊~我现在就在学习呢,想下如何实现根据权值定时启动爬虫程序获得网页数据

悟红尘 2021-11-18 11:22:25

看下这个项目:http://www.oschina.net/p/phpdig

妖妓 2021-11-18 10:45:26

好~有代码最好不过了,俺好好学习下

多情癖 2021-11-18 10:22:13

您好,我现在也在研究爬虫,在已经获得原网页的地址 http://dl.acm.org/ft_gateway.cfm?id=361973&type=pdf&coll=DL&dl=ACM&CFID=96880243&CFTOKEN=91674475后,怎么得到它自动跳转后的url啊,希望您指点一二,邮箱zhaochaoqun33@163.com,非常感谢!

疑心病 2021-11-18 09:45:58

好学生啊..虚心求教不错 ..建议你直接看一些简单爬虫程序的源码

执手闯天涯 2021-11-18 08:49:26

嗯嗯~我刚才试了下百度和谷歌,发现我以前写的文章都搜不到,才发现原理搜索引擎并不是一直在搜录新的网页信息。 按照您的解释的话我就大概明白了,这个爬虫程序要根据一些值来定时启动。 这个第3条从您的解答中,我理解的实际实现中,后台就进行获取数据建立各种索引(主要跑爬虫程序),前台从已有数据中提取用户需要的结果。 谢谢您啊~使我大概有了一定的理解

岁月打碎记忆 2021-11-17 12:27:36

搜索引擎是像你第1条写的那样运行的。

爬虫爬网站是周期性的,也就是你网站有了更新并不会马上在搜索引擎上,要等引擎下一次爬你的网站,至于爬的频率是按你网站的权值来决定的,像sitemaps之类的也会影响到爬虫爬你网站的频率,有多种因素共同决定。

你第3条所说的客户端和服务端虽然有点不合适,但是也可以这么理解,一个负责获取数据并进行各种索引,一个负责从已有的数据里提取用户搜索的结果,后者一般就是为最终用户提供服务的用户界面。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文