获取 Hpricot 中元素的类型
我想遍历元素的子元素并仅过滤文本或 span 元素,例如: element.children.select {|child| child.class == String || child.element_type == 'span' …
DownloadData() 生成与浏览器不同的 HTML
我正在尝试使用 WebClient.DownloadData() 方法下载网站的源 HTML。 我的方法应该给我来源: public string GetSite(string URL) { Uri Site = new Ur…
使用 Rake 抓取 ASP.NET 页面
是否可能,如果可以,如何使用 RAKE 抓取 ASP.Net 应用程序(非常简单,只有 2 个登录表单)- 基本上是一个蜘蛛机器人/网络爬虫。 我只是问因为我以前…
这个异步下载可以吗? WebClient.DownloadDataAsyn() 问题
我有一个名为 SiteAsyncDownload.cs 的类, 代码如下: public class SiteAsyncDownloader { WebClient Client = new WebClient() string SiteSource …
如何在此上下文中使用 WebClient.DownloadDataAsync() 方法?
我的计划是让用户在我的程序中写下电影标题,我的程序将异步提取适当的信息,这样 UI 就不会冻结。 这是代码: public class IMDB { WebClient WebCli…
处理屏幕抓取对象的更好方法
在我的应用程序中,我总是最终实现模型-视图-演示者模式,并且通常最终会使用 get 属性从屏幕上废弃我的视图对象。 例如 Person IBasicRegistration.P…
Scrubyt 获取元数据
如何使用 Scrubyt 获取元名称=“描述”内容=“.....”的内容? require 'rubygems' require 'scrubyt' data = Scrubyt::Extractor.define do fetch 'h…
屏幕抓取应用程序(非 HTML)
I need screen scraper application which will recognize text from the screen (and not use winapi to do this so source could be in image file)…
如何在 python 中下载具有正确字符集的任何(!)网页?
问题 当使用 python 对网页进行屏幕抓取时,必须知道页面的字符编码。如果字符编码错误,那么输出将会混乱。 人们通常使用一些基本技术来检测编码。它…
如何防止有人窃取 API feed?
我已经开始开发一个网页,最近雇了一个人编写代码,在 http 的中间面板中显示自定义提要(由 API 提供支持) ://farmball.com/。 请注意,这不是与网…