编写一个 C# 程序来扫描电子商务网站并提取产品图片 + 价格 + 他们的描述
我正在开发一个电子商务搜索引擎,可以让您在很多电子商务网站中搜索产品。 我该如何处理这个问题? 我需要一个能够扫描网站、解析 HTML 并确定网站中…
使用 PHP 和 XPath 进行屏幕抓取
有谁知道使用 XPath 提取数据时如何保持文本格式? 我目前正在提取所有块 标题 文本锚 来自页面。 问题是当我访问nodeValue时,我只能得到纯文本。 如…
像 Hubspot 这样的网站如何跟踪入站链接?
所有这些类型的网站都只是非法抓取 Google 或其他搜索引擎吗? 据我所知,没有“合法”的方式来获取商业网站的这些数据。 api ( http://developer.yah…
有谁知道可以从 JavaScript 调用来创建和保存桌面屏幕截图的无 GUI 应用程序?
虽然这个话题听起来像是我想做一些狡猾的事情,但我不是; 我维护一个由数百个电话运营商使用的内部网站,并希望添加以下功能: 我想在所有网页的标题…
自动生成 HTTP 屏幕抓取 Java 代码
我需要从网站上筛选一些数据,因为无法通过他们的网络服务获得这些数据。 当我以前需要这样做时,我自己使用 Apache 的 HTTP 客户端库编写了 Java 代…
如何动态查找给定 URL 的入站链接?
Technorarati 拥有他们的 Cosmos api,它工作得相当好,但限制您用于非商业用途,并且不能使用每天超过500个查询。 雅虎有一个 Site Explorer InLink …
在 C# 中抓取 Windows 应用程序的屏幕
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
使用 PHP 进行抓取 SimpleXML...我可以抓取图像但不能抓取原始文本?
我正在尝试从网站上获取特定的原始文本。 通过这个网站和其他来源,我学会了如何使用 simpleXML 和 xpath 抓取特定图像。 然而,同样的方法似乎不适用…