如何查找“”中的href元素值用红宝石标记
我的目标是找到谷歌搜索结果中的第一个结果并收集站点链接,所以我构建了这个脚本: require 'hpricot' require 'open-uri' require 'mechanize' quer…
如何抓取将所有交互都作为回发进行的 ASP.NET 站点?
我使用 Python 为 ASP.NET 站点(特别是 Jenzabar 课程搜索 portlet)构建了一个抓取工具,它将创建一个新会话、加载第一个搜索页面,然后通过回发所…
使用 scrapy 抓取多个域的最佳方法是什么?
我希望从中刮掉大约10个奇数网站。其中一些是WordPress博客,尽管有不同的类别,但它们遵循相同的HTML结构。其他是其他格式的论坛或博客。 我喜欢刮擦…
哪些应用程序或库可用于 Windows 上的屏幕抓取应用程序?
我们开发了一个应用程序,客户可以与内部定制软件并行使用。我们的一位客户要求我们调查屏幕抓取软件的使用,以在两个应用程序之间提供某种集成层。 …
在 Node.js 中进行屏幕抓取的最优雅的方法是什么?
我正在编写一个 Web 应用程序,该应用程序在 Node.js 中使用大量的屏幕抓取。我感觉自己在每个角落都在与潮流作斗争。必须有一种更简单的方法来做到这…
使用 PHP DOM 函数从 HTML 文件中提取数据的最佳方法是什么?
我需要从各种 HTML 文件中提取大量数据,并且我必须为每种类型的 HTML 文件编写单独的脚本,以便正确解析出我需要的数据。 数据将位于文档的不同部分 …
如何同时运行多个 nokogiri 屏幕抓取线程
我有一个网站,需要在许多不同的网站上使用 Nokogiri 来提取数据。这个过程使用delayed_job gem 作为后台作业运行。然而,每个页面运行大约需要 3-4 …
无法使用 Python urllib2 加载 ASP.NET 页面
我正在尝试向 https://www. paoilandgasreporting.state.pa.us/publicreports/Modules/WellDetails/WellDetails.aspx 以抓取数据。 这是我当前的代码…
如何编写可以浏览网页并在网页上执行操作的自动化机器人
我需要编写一个需要执行以下操作的机器人: 转到 jsp 页面并 通过以下方式搜索内容: 1:在搜索框中写一些内容 2:单击搜索按钮(提交按钮) 3:单击…
为什么 HTMLunit 在这个 https 网页上不起作用?
我正在尝试了解有关 HTMLunit 的更多信息并目前进行一些测试。我正在尝试从此网站获取页面标题和文本等基本信息: https://....com(删除了完整的网址…
HTML DOM 解析器 - 如何获取论坛中所有主题的第一篇文章
我试图废弃 sitepoint javascript 论坛中每个主题的第一篇文章。但是 DOM 解析器会给我 SITE POINT JAVASCRIPT 论坛中每个主题的所有帖子。也许我没有…