屏幕抓取使用 javaScript 和框架的网页
我想从 www.marktplaats.nl 抓取数据。我想在 Excel/Access 中分析抓取的描述、价格、日期和视图。 我尝试使用 Ruby(nokogiri、scrapi)抓取数据,但…
Mechanize 无法通过 CSS 选择器方法识别锚标记
(希望这不是违反礼仪:我在 RailsForum 上发布了此内容,但最近我没有从那里得到太多回应。)还有 其他人遇到过 Mechanize 无法通过 CSS 选择器识别…
HttpRequest:通过AuthLogin
我需要制作一个简单的程序,使用给定的凭据记录到某个网站,然后导航到某个元素(链接)。 甚至有可能(我的意思是这个 Authlogin 的事情)? 编辑:…
使用 Python 进行屏幕抓取
Python 是否有提供 JavaScript 支持的屏幕抓取库? 我一直使用 pycurl 来处理简单的 HTML 请求,使用 Java 的 HtmlUnit 来处理需要 JavaScript 支持的…
使用 HTMLAgilityPack 从节点的子节点中选择所有
我有以下代码用于获取 html 页面。将网址设置为绝对,然后将链接设置为 rel nofollow 并在新窗口/选项卡中打开。我的问题是向 添加属性。 string url …
C# 中的 Web 浏览 - 库、工具等 - 有类似 Perl 中的 Mechanize 的东西吗?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
赞普。 PHP脚本显示空白页!
php 脚本调用四个函数来抓取不同网站的数据。 $returnData[0]=getWebsite1Data($description) $returnData[1]=getWebsite2Data($description) $return…
Java 是否有类似于 lxml 或 nokogiri 的库?
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
我应该如何使用 HTMLAgilityPack AppendNode?
周五这个阶段真是头疼!我正在尝试使用 InsertAfter() 将 HtmlNode 添加到另一个。当我将其 rpint 到控制台时,我可以看到带有面包屑 id 的 refChild …
使用 python 向 aspx 页面提交查询并抓取结果?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
任何用于 ruby 的 html/css 解析库PHP?
我即将完成使用 mechanize&ruby 解析/抓取网站的脚本。 我将来需要将我的脚本移植到 PHP。 我的问题是 是否有任何库可用于 ruby 和 php,或者 …
使用屏幕截图提取数据
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…