如何通过php从外部网页获取内容?
我想获取网页中的“标题”、“描述”和“关键字” 我知道 3 种方法来实现这项工作: a) 使用 CURL b) 使用 fopen c) 使用 get_meta_data() 奇怪的是,…
任何好的开源 C# 网络爬虫框架
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
为什么 Facebook 无法正确解析 Twitter URL?
我正在摸不着头脑, 拿一个(新的)Twitter 网址,例如。 [http://twitter.com/#!/NASA](注意“#!”) 将此链接粘贴到您的 Facebook 墙上或“您在想…
控制 HttpWebRequest 中使用的连接
是否可以对用于 HttpWebRequest 的连接进行任何类型的控制?我使用 BindIPEndPointDelegate 属性来设置要绑定请求的 IP。然而,我想要有 5 个保持活动…
处理特殊实体,如 & nbsp; , &磅;在 HtmlCleaner 中
我正在使用 HtmlCleaner 库进行 html 内容提取。它工作得相当好,但有一些限制。 它无法处理特殊字符,例如 &pound 或引号等。例如 对于网址:http…
如何从命令行使用 JSON 负载进行 HTTP 请求/调用?
从命令行执行 JSON 调用的最简单方法是什么?我有一个网站,它执行 JSON 调用来检索其他数据。 Google Chrome 中显示的请求有效负载如下所示: {"vers…
Python urllib2,如何避免错误 - 需要帮助
我正在使用 python urllib2 从网络下载页面。我没有使用任何类型的 user_agent 等。我收到以下示例错误。谁能告诉我一个简单的方法来避免它们。 http:…
用GOOGLE搜索html源代码?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
Nutch 的替代网络爬虫
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
使用 PHP 和 RegEx 从站点源代码中获取所有选项值
我正在学习正则表达式和网站爬行,并且有以下问题,如果得到解答,应该会显着加快我的学习过程。 我已经从网站上以 html 编码格式获取了表单元素。也…
HtmlUnit 的替代方案
迄今为止,我一直在研究可用的无头浏览器,发现 HtmlUnit 的使用非常广泛。与 HtmlUnit 相比,我们是否有任何具有可能优势的 HtmlUnit 替代方案? 谢…