web-crawler

web-crawler

文章 0 浏览 2

如何通过php从外部网页获取内容?

我想获取网页中的“标题”、“描述”和“关键字” 我知道 3 种方法来实现这项工作: a) 使用 CURL b) 使用 fopen c) 使用 get_meta_data() 奇怪的是,…

南城旧梦 2024-10-06 09:11:09 0 0

我需要一个强大的网络爬虫库

我需要一个强大的网络抓取库来从网络中挖掘内容。可以付费也可以免费,两者对我来说都很好。请建议我一个库或更好的方法来挖掘数据并将其存储在我喜欢…

难理解 2024-10-06 07:23:14 2 0

任何好的开源 C# 网络爬虫框架

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

夏至、离别 2024-10-05 23:36:30 0 0

高效网络爬虫的语言建议

我正在寻找一种用于编写高效网络爬虫的语言。我看重的东西: 富有表现力的语言(不要让我仅仅通过静态打字圈) 有用的库(基于 css 选择器的 html 解…

地狱即天堂 2024-10-05 18:02:20 0 0

为什么 Facebook 无法正确解析 Twitter URL?

我正在摸不着头脑, 拿一个(新的)Twitter 网址,例如。 [http://twitter.com/#!/NASA](注意“#!”) 将此链接粘贴到您的 Facebook 墙上或“您在想…

木有鱼丸 2024-10-05 15:57:38 1 0

控制 HttpWebRequest 中使用的连接

是否可以对用于 HttpWebRequest 的连接进行任何类型的控制?我使用 BindIPEndPointDelegate 属性来设置要绑定请求的 IP。然而,我想要有 5 个保持活动…

咋地 2024-10-05 11:34:29 0 0

网络爬行和网络抓取有什么区别?

爬行和网页抓取之间有区别吗? 如果存在差异,那么收集一些网络数据以提供数据库供以后在定制搜索引擎中使用的最佳方法是什么?…

时间你老了 2024-10-05 10:05:52 1 0

处理特殊实体,如 & nbsp; , &磅;在 HtmlCleaner 中

我正在使用 HtmlCleaner 库进行 html 内容提取。它工作得相当好,但有一些限制。 它无法处理特殊字符,例如 &amppound 或引号等。例如 对于网址:http…

遗失的美好 2024-10-05 09:03:53 0 0

如何从命令行使用 JSON 负载进行 HTTP 请求/调用?

从命令行执行 JSON 调用的最简单方法是什么?我有一个网站,它执行 JSON 调用来检索其他数据。 Google Chrome 中显示的请求有效负载如下所示: {"vers…

墨落画卷 2024-10-05 04:34:02 0 0

我应该用什么来爬取许多新闻文章?

我有一个自然语言处理项目,但为此我需要从雅虎新闻、谷歌新闻或博客等来源抓取许多网络文章...... 我是一名java开发人员(所以我宁愿使用java工具)…

坏尐絯 2024-10-05 02:06:55 0 0

Python urllib2,如何避免错误 - 需要帮助

我正在使用 python urllib2 从网络下载页面。我没有使用任何类型的 user_agent 等。我收到以下示例错误。谁能告诉我一个简单的方法来避免它们。 http:…

我早已燃尽 2024-10-04 21:43:53 0 0

用GOOGLE搜索html源代码?

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

迷路的信 2024-10-04 07:51:56 2 0

Nutch 的替代网络爬虫

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

咿呀咿呀哟 2024-10-04 05:04:18 0 0

使用 PHP 和 RegEx 从站点源代码中获取所有选项值

我正在学习正则表达式和网站爬行,并且有以下问题,如果得到解答,应该会显着加快我的学习过程。 我已经从网站上以 html 编码格式获取了表单元素。也…

新人笑 2024-10-04 02:42:56 0 0

HtmlUnit 的替代方案

迄今为止,我一直在研究可用的无头浏览器,发现 HtmlUnit 的使用非常广泛。与 HtmlUnit 相比,我们是否有任何具有可能优势的 HtmlUnit 替代方案? 谢…

栖竹 2024-10-04 02:22:45 1 0
更多

推荐作者

lioqio

文章 0 评论 0

Single

文章 0 评论 0

禾厶谷欠

文章 0 评论 0

alipaysp_2zg8elfGgC

文章 0 评论 0

qq_N6d4X7

文章 0 评论 0

放低过去

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文