如何使用 hpricot 从超链接中提取 URL?
我想从超链接中获取实际的 url 字符串。我希望我的结果被去掉 html。 因此,如果我的输入字符串之一是 resource 我想得到: http://target.com/resour…
显示“””的正确字符编码?
我遇到了一些令人讨厌的字符编码问题,我无法解决。 本质上,我使用 PHP 从网站上屏幕抓取一些 HTML,然后通过 PHP 的 DOMDocument 运行它以更改一些 …
Watir 在嵌套表上运行缓慢
我正在使用 watir-webdriver 从具有基于嵌套表的布局的页面中进行抓取。例如,我在 http://veryslow.staticloud.com/ 构建了一个非常小的玩具网站。要…
在一个网站内抓取所有网页的最快方法
我有一个 C# 应用程序,需要尽快抓取某个域内的许多页面。我有一个 Parallel.Foreach 循环遍历所有 url(多线程)并使用下面的代码来抓取它们: priva…
抓取 ASP.net 网站:需要使用 Python Mechanize 对 Gridview 进行分页
我正在尝试抓取一个 asp.net 页面,我需要在其中翻阅 gridview 控件中的项目列表。我从未使用过 asp.net,但一直在网上搜索指针,但现在我遇到了困难…
在 watir 中搜索带下划线的链接
我正在尝试搜索/选择页面中带下划线的链接,而其他页面则没有。来源是这样的: Some ulined text Other link text Another Link text 我尝试了类似的…
如何在 Watir 中查找文本框
我正在尝试使用 watir-webdriver 访问网站,但我似乎无法在 watir 中找到我可以在 Firefox+Firebug 中看到的文本框。 我的代码是 require 'rubygems' …
需要有关 VNC 及其代码的帮助
我想做的是假设在 Windows 7 计算机上打开 10 个画图应用程序窗口。我想在 10 个不同的触摸设备上显示这 10 个不同的窗口。我计划在这些运行 android …
元素组的 CSS 选择器?
我正在尝试使用以下结构抓取 HTML 网站: ... ... ... ... ... ... ... ... ... ... 我需要获取两个 a[name] 锚元素之间的所有 p、h3 和 ul 标签。 现…
Ruby:如何从屏幕上抓取 Ajax 请求的结果
我编写了一个 ruby 脚本来使用“open-uri”和“hpricot”gems 来屏幕抓取某些内容 - 到目前为止一切都很好。 但现在我必须屏幕抓取通过 javascrip…
将电子邮件读入 ASP .Net 中的 SQL 数据库
我读了这篇文章 .net 代码将电子邮件读入 SQL 数据库我想知道是否有免费的方法可以做到这一点。 我想在我的数据库中存储一些电子邮件。也许首先对它们…
抓取时正确处理 ASP.NET 页面
我正在从 Python 脚本中抓取某个支持 ASP.NET 的搜索页面,但在从回发获取所需数据时遇到了麻烦。 所以我想在排除之前验证我是否正确地获得了 ASP.NET…