在搜索引擎的实现中网络爬虫如何触发获取新的网页
小弟我最近在学习搜索引擎方面的知识,想自己实现一个搜索引擎。但是想了很久有些问题不明白。
1 网络爬虫程序与用户搜索之间的关系,是不是爬虫程序先抓取互联网的数据,然后用户在已抓取的存放在本地的文件进行搜索?
2 用户提交了要搜索的词条,那如果互联网中的网页已经发生了改变,那么如何启动爬虫程序来获得最新的网页资源呢?
3 建立这种搜索引擎模型 是不是要有客户端和服务器端,客户端用来提交请求获得结果,服务端用来启动爬虫程序同时建立索引数据库?
真心希望各位大牛能够帮助下我,实在很困惑~
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(13)
是的哦~不好弄
我也在学呢,不过学得好纠结
Lucene的文档要完善得多,相关支持模块也很多,结构和理念都是比较好的,值得看看。
嗯嗯~网上资料里面lucene比较全面,我也打算好好看看。这个爬虫的设计感觉还是很难的哦
嗯~好的,我现在去网上搜一下,看看
建议你看一些这方面的书,最简单的好像有一本书叫《自己动手写搜索引擎》,里面有不少代码,但是比较简单。
或者看一些比较专业的书,我看过的几本书
《搜索引擎:信息检索实践》《Web数据挖掘》《深入搜索引擎:海量信息的压缩、索引和查询》
嗯,谢谢啊~我现在就在学习呢,想下如何实现根据权值定时启动爬虫程序获得网页数据
看下这个项目:http://www.oschina.net/p/phpdig
好~有代码最好不过了,俺好好学习下
您好,我现在也在研究爬虫,在已经获得原网页的地址 http://dl.acm.org/ft_gateway.cfm?id=361973&type=pdf&coll=DL&dl=ACM&CFID=96880243&CFTOKEN=91674475后,怎么得到它自动跳转后的url啊,希望您指点一二,邮箱zhaochaoqun33@163.com,非常感谢!
好学生啊..虚心求教不错 ..建议你直接看一些简单爬虫程序的源码
嗯嗯~我刚才试了下百度和谷歌,发现我以前写的文章都搜不到,才发现原理搜索引擎并不是一直在搜录新的网页信息。 按照您的解释的话我就大概明白了,这个爬虫程序要根据一些值来定时启动。 这个第3条从您的解答中,我理解的实际实现中,后台就进行获取数据建立各种索引(主要跑爬虫程序),前台从已有数据中提取用户需要的结果。 谢谢您啊~使我大概有了一定的理解
搜索引擎是像你第1条写的那样运行的。
爬虫爬网站是周期性的,也就是你网站有了更新并不会马上在搜索引擎上,要等引擎下一次爬你的网站,至于爬的频率是按你网站的权值来决定的,像sitemaps之类的也会影响到爬虫爬你网站的频率,有多种因素共同决定。
你第3条所说的客户端和服务端虽然有点不合适,但是也可以这么理解,一个负责获取数据并进行各种索引,一个负责从已有的数据里提取用户搜索的结果,后者一般就是为最终用户提供服务的用户界面。