使用一个搜索字符串搜索 4 个网站目录

发布于 2024-12-06 20:42:28 字数 217 浏览 1 评论 0原文

我经常去很多图书馆。布鲁克林公共图书馆、皇后区公共图书馆、纽约公共图书馆和纽约市立大学学校图书馆。当我想要一本书时,我必须访问所有 4 个在线目录并进行搜索。我想编写一个程序,将书籍、作者、ISBN 或任何关键字作为字符串,然后返回 4 个搜索结果,就像我手动访问每个目录站点一样。我认为这将被视为网络爬虫。我相当擅长遵循编程教程,并在知道自己要找什么时进行谷歌搜索。我真的不知道从哪里开始,希望得到一些建议。提前致谢。

I frequent many libraries. The Brooklyn Public Libraries, Queens Public Libraries, New York Public Libraries and CUNY schools libraries. When I want a book I have to go to all 4 online catalogs and search for it. I want to instead write a program that takes the book, author, ISBN, or whatever keywords as a string and then return 4 search result as if I went to each catalog site manually. I think this would be considered a web crawler. I'm fairly good at following programming tutorials, and googling something when I know what I'm looking for. I really have no idea where to start and would appreciate some advice. Thanks in advanced.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

囍孤女 2024-12-13 20:42:28

以下是一些基于 Python 的脚本和示例,说明如何自动抓取/抓取每个在线目录。这可以用任何语言来完成,但我认为 python 是最简单的。

简单网络爬虫(Python 配方)

Scrapy

或者,要在没有预先编写的脚本的情况下执行此操作,您可以使用 urllib2 获取网页源代码,然后使用类似 BeautifulSoup。并使用解析的源代码进行一些关键字检查,并显示结果。

Here are some python based scripts and examples of how you can automate the crawling/scraping of each online catalog. This can be done in any language, but python in my opinion would be the simplest.

Simple Web Crawler (Python recipe)

Scrapy

Or, to do it without a prewritten script you would use urllib2 to get the web page source and then parse that source with something like BeautifulSoup. And with the parsed source, do some keyword checks, and display the results.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文