通过使用 jQuery 排除其他 div 来从 div 获取 HTML
我们需要为我们的系统抓取博客文章的正文(这是合法的,我发誓 - 我们有一个培训博客,我们希望在系统内的帮助对话框中显示内容)。这些博客是在生成 …
“现场抓取”在Windows中
我想为某些 Windows 应用程序开发一个审核应用程序。我想从 MessageBoxes、Windows、Forms、Selections 等中获取文本,理想情况下我想用 C++ 进行编程…
BeautifulSoup 对 jQuery 脚本感到窒息,有什么已知的解决方法吗?
我给 BeautifulSoup 一个 html 文档,只需用完整的 html 构造一个 BeautifulSoup 对象实例,它似乎就会被嵌入 html 中的 jQuery 脚本的以下行阻塞: v…
asp.net/ C# 屏幕缩放很容易完成吗?
使用 C# 和 .net 4.0 进行屏幕抓取的最简单方法是什么? 我可以重用他们的库吗?我想我听说过一个 html 工具包,但现在找不到它......…
PHP file_get_html 的奇怪问题
您好,我正在尝试使用 simple_html_dom 进行文本(网站)集群项目,但我遇到了一个奇怪的问题。当我在外循环内使用 echo 时,url 和片段是您所期望的…
C# 屏幕抓取使用 POST 处理登录控件
我正在尝试使用屏幕抓取登录网站,但遇到困难。 private static string GetWebRequestContent(Uri uri) { string sid = String.Empty string userName…
抓取需要使用 Mechanize 启用 Javascript 的网站美丽汤 (Python)
所以..我得到了这个网站,我正在尝试抓取,但据我了解缺乏支持 .js 的机械化,以及需要支持 JavaScript 的浏览器的顽固网站是 不是一个很好的组合... …
需要使用 CURL 登录网站的帮助
我在使用 CURL 登录网站时遇到一些问题。 我认为我的问题与 cookie 文件有关。 我在登录时使用 cookiejar 来收集信息,然后 我使用 cookiefile 来检索…
PHP 函数获取内的所有链接在远程站点上使用抓取方法
有人有一个 PHP 函数可以抓取远程站点上特定 DIV 内的所有链接吗?所以用法可能是: $links =grab_links($url,$divname) 并返回一个我可以使用的数组…
如何使用 scraper 从 web 2.0 图表中提取数据
我最近遇到一个网页,其中包含一个图形对象,当鼠标滚动到该对象上时,该对象会显示该对象上的 (x, y) 值。有什么办法可以自动提取这些数据吗?…
如何使 pQuery 能够处理格式稍有缺陷的 HTML?
pQuery 是 jQuery JavaScript 框架到 Perl 的实用移植,可用于屏幕抓取。 pQuery 对格式错误的 HTML 非常敏感。考虑以下示例: use pQuery my $html_m…