如何从 HTML 文件中提取所需的数据?
这是我的 HTML: p_tags = '''<p class="foo-body"> <font class="test-proof">Full name</font> Foobar<br /> <font class="test-…
使用 www::mechanize 时的 Iconv::IllegalSequence
我正在尝试进行一些网络抓取,但 WWW:Mechanize gem 似乎不喜欢编码并且崩溃。 post 请求导致 302 重定向(机械化遵循,到目前为止一切顺利),并且生…
超快速的屏幕抓取技术?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
使用selectorgadget.com 解析HTML 文件
我如何使用 beautiful soup 和 selectorgadget 来抓取网站。 例如,我有一个网站 - (newegg 产品) 并且我希望我的脚本返回该产品的所有规格(单击“…
编写一个 C# 程序来扫描电子商务网站并提取产品图片 + 价格 + 他们的描述
我正在开发一个电子商务搜索引擎,可以让您在很多电子商务网站中搜索产品。 我该如何处理这个问题? 我需要一个能够扫描网站、解析 HTML 并确定网站中…
使用 PHP 和 XPath 进行屏幕抓取
有谁知道使用 XPath 提取数据时如何保持文本格式? 我目前正在提取所有块 标题 文本锚 来自页面。 问题是当我访问nodeValue时,我只能得到纯文本。 如…
像 Hubspot 这样的网站如何跟踪入站链接?
所有这些类型的网站都只是非法抓取 Google 或其他搜索引擎吗? 据我所知,没有“合法”的方式来获取商业网站的这些数据。 api ( http://developer.yah…
有谁知道可以从 JavaScript 调用来创建和保存桌面屏幕截图的无 GUI 应用程序?
虽然这个话题听起来像是我想做一些狡猾的事情,但我不是; 我维护一个由数百个电话运营商使用的内部网站,并希望添加以下功能: 我想在所有网页的标题…
自动生成 HTTP 屏幕抓取 Java 代码
我需要从网站上筛选一些数据,因为无法通过他们的网络服务获得这些数据。 当我以前需要这样做时,我自己使用 Apache 的 HTTP 客户端库编写了 Java 代…
如何动态查找给定 URL 的入站链接?
Technorarati 拥有他们的 Cosmos api,它工作得相当好,但限制您用于非商业用途,并且不能使用每天超过500个查询。 雅虎有一个 Site Explorer InLink …
在 C# 中抓取 Windows 应用程序的屏幕
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …