自动检测任意电子商务网站的产品数据源?
我的网络应用程序需要访问任意电子商务商店并确定它是否具有产品数据提要(即 Google Base 提要;商店中所有产品的 RSS/ATOM 提要)。另外,我需要提…
safariwatir:如何选择匿名按钮
我在 OSX Snow leopard 上使用 watir 和 ruby 1.8.7 进行 safari。 我想单击一个按钮,这是页面中唯一一个既没有 id 也没有名称的按钮。它只有 on…
在 Eventlet 页面抓取中维护会话?
我正在尝试对需要身份验证(而不是 http 身份验证)的网站进行一些抓取。我使用的脚本基于此 eventlet 示例。基本上, urls = ["https://mysecuresite…
如何使用 HTML Parser 获取 HTML 页面中所有标签的完整信息
我正在使用 HTML 解析器来开发应用程序。 下面的代码无法获取页面中的整套标签。 有一些标签被遗漏了,它们的属性和文本正文也被遗漏了。 请帮我解释…
使用 PHP 从必须登录的网站 (Reddit) 抓取和使用数据?
我想创建一个网页,给定两个 reddit 用户名及其密码,让 user2 订阅 user1 订阅的所有 subreddit。所以我需要: 获取 user1 订阅的 subreddits。 订阅…
如何让C# HttpWebRequest等待查询结果
我正在尝试抓取报价引擎,但 HttpWebResponse 仅返回“请稍候”屏幕,而不是最终结果。 有没有办法让请求等待响应?状态代码不起作用,因为“请稍候”…
从使用 AJAX 的网页获取 HTML
我想知道如何抓取使用 AJAX 来获取正在呈现的网页上的内容的网页。通常,此类页面的 HTTP GET 只会获取嵌入了 JavaScript 代码的 HTML 页面。但我想知…
我怎样才能“屏幕抓取” VB6 中的其他 Windows 程序?
我想每秒监视一个进程,直到它显示预期的“错误”消息。 我如何监控something.exe并通过“屏幕抓取”从我的vb6程序中的something.exe错误消息获取通知…
php使用CURL抓取whois记录
示例: http://www.whois.net/whois/hotmail.com 何时在浏览器中打开,显示输出。 当使用curl调用时,它什么也不显示。 怎么了?我想返回整个页面结果…
屏幕抓取使用 javaScript 和框架的网页
我想从 www.marktplaats.nl 抓取数据。我想在 Excel/Access 中分析抓取的描述、价格、日期和视图。 我尝试使用 Ruby(nokogiri、scrapi)抓取数据,但…
Mechanize 无法通过 CSS 选择器方法识别锚标记
(希望这不是违反礼仪:我在 RailsForum 上发布了此内容,但最近我没有从那里得到太多回应。)还有 其他人遇到过 Mechanize 无法通过 CSS 选择器识别…
HttpRequest:通过AuthLogin
我需要制作一个简单的程序,使用给定的凭据记录到某个网站,然后导航到某个元素(链接)。 甚至有可能(我的意思是这个 Authlogin 的事情)? 编辑:…
使用 Python 进行屏幕抓取
Python 是否有提供 JavaScript 支持的屏幕抓取库? 我一直使用 pycurl 来处理简单的 HTML 请求,使用 Java 的 HtmlUnit 来处理需要 JavaScript 支持的…