使用 PHP 或 Python 的网页抓取技术

发布于 2024-10-09 19:32:55 字数 349 浏览 6 评论 0原文

我需要抓取大约 100 个提供的内容非常相似的网站。

我的第一个疑问。应该可以编写通用脚本来抓取所有 100 个网站，或者在抓取技术中只能为特定网站编写脚本。（愚蠢的问题。）。我想我应该问一下哪种可能性更容易。为每个网站编写 100 个不同的脚本很困难。

第二个问题。我的主要语言是 PHP，但在 Stackoverflow 上搜索后，我发现最先进的爬虫之一是 Python 中的“Beautiful Soup”。应该可以用 PHP 调用 Python 中的“Beautiful Soup”吗？或者应该更好地用 Python 来完成所有脚本？

给我一些关于我该怎么走的线索。

抱歉我的英语不好。

此致，

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

微暖i 2024-10-16 19:32:55

因为我更喜欢 PHP 而不是 Python，所以我曾经使用 phpQuery 从网站上抓取数据。它工作得很好，我很快就想出了一个 scaper，使用 CSS 选择器（在 SelectorGadget 的帮助下） ) 选择元素并获取其 ->text() 。

但我发现它有点慢（因为我必须抓取数千页），所以最后我将其更改为使用正则表达式来抓取数据。 d：

回复收藏 0 原文

哆啦不做梦 2024-10-16 19:32:55

1.) 一个爬虫可以处理 100 个站点？这取决于您的要求。如果您只需要特定信息，则需要考虑 100 个不同的网站及其布局。不过，一些通用功能可以共享。

2.) BeautifulSoup 是一个 HTML/XML 解析器，而不是一个屏幕抓取器本身。如果爬虫是用 python 编写的，那么它将是该任务的首选。从 php 调用 python 是可以完成的，但它肯定不如单语言解决方案那么干净。这就是为什么我建议您为了原型而研究 python 和 BeautifulSoup。

旁注： http://scrapy.org/ 是另一个 python 库，专门设计的