我如何从 BeautifulSoup 中获取 CData
我正在抓取一个具有类似结构的网站,如下所示。我希望能够从 CData 块中获取信息。 我正在使用 BeautifulSoup 从页面上提取其他信息,所以如果解决方…
有没有比 urlgrabber 更好的库来在 python 中获取远程 url?
我正在编写一个蜘蛛,它需要一个 load_url 函数来为我执行以下操作: 如果出现临时错误,则重试 URL,而不会泄漏异常。 不泄漏内存或文件句柄 使用 HT…
在网站上进行身份验证并使用 Objective-c 进行屏幕抓取
我正在开发一个 iPhone 应用程序,我希望在网站上进行身份验证(登录表单)并通过进行一些屏幕抓取来检索一些信息。是否有可用的 API 来执行此操作或…
如何使用 Ruby 在目标站点上抓取、构建会话并启动页面
我想知道如何使用 Ruby 抓取网站,目的是启动一个加载目标页面的新浏览器。这是必需的,因为目标页面不是无状态的,并且需要许多会话参数。 有关示例…
寻找 Webzinc .NET、屏幕抓取、.NET Web 自动化库的免费替代品
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
YQL 抓取整个网站/域
我正在尝试从域中恢复一组链接和内容。 谷歌中的查询是 "site:www.newswebsite.com search_term" 我已经看到了一些接近的东西来实现这个工作,但我似…
大学课程网站的网络抓取/解析
尝试解析/抓取孟菲斯的课程网站。该网站是“https://spectrumssb2.memphis.edu/pls/PROD/bwckgens。 p_proc_term_date”。这似乎是某种 JavaScript 问…
使用 JavaScript 的编程式 Python 浏览器
我想对一个使用 JavaScript 的网站进行屏幕抓取。 有 mechanize,Python 的编程 Web 浏览器。然而,它(可以理解)不解释 javascript。有没有 Python …
无法抓取包含格式错误内容的网页
我编写了 C# 代码,它利用 HtmlAgilityPack 库来抓取位于以下位置的页面: 世界上最大的城市区域 (第 2 页)。不幸的是,该页面包含格式错误的内容。 …
如何将屏幕保存为 C# 中 .NET 表单应用程序的图像
我有一个 .NET 3.5 Windows 窗体应用程序。当用户输入数据并单击“保存”时,我想将整个表单保存为图像文件。 我该怎么做? 谢谢, 查克。…
PHP、Zend Framework:如何从另一台服务器获取页面,然后传递内容?
我想这也可以称为“抓取”。基本上,我想做的是,如果有人点击此链接: <a href="/links/display/id/47">Click here</a> 我希望我的 links 控…