web-scraping

web-scraping

文章 0 浏览 2

从 Facebook 活动提要中提取链接

我试图从 Facebook 活动源获取链接,我尝试从 iframe 中提取 HTML,但由于跨域,这不起作用。然后我尝试了 cURL 但由于 javascript 而不起作用。 http…

兔小萌 2024-10-10 14:21:15 0 0

使用多个代理

我正在创建使用 watin 的线程网站抓取工具。它将在谷歌中搜索我在文本框中输入的字符串, 我希望每个线程使用不同的代理并且它们同时运行。是否可以在…

昵称有卵用 2024-10-10 08:15:52 0 0

使用 Python 从 ASP 表单下载文件

我正在尝试从 http://www.sl.universalservice 下载大量文件.org/funding/opendatasearch/Search1.asp 使用 Python 库 mechanize。在网站上,用户必须…

恋竹姑娘 2024-10-10 01:08:42 0 0

以编程方式访问亚马逊心愿单?

亚马逊最近更改了他们的 API,现在似乎无法使用这些 API 以编程方式访问我在亚马逊上的愿望清单。除了屏幕抓取之外,有人知道还有什么方法吗?也许是…

我为君王 2024-10-10 00:07:00 1 0

wget 是 DL“downloading.aspx”;而不是“helloworld.doc”?

我为 wget 创建了两个文件: log.txt 和 docs.txt。 LOG.txt: --2010-12-27 23:17:12-- http://www.xyz.dk/docs/Getpaper.aspx?id=133337 Resolving …

霊感 2024-10-09 12:38:39 0 0

PHP DOM文档错误处理

我在尝试为 DOM 编写一个 if 语句来检查 $html 是否为空时遇到问题。然而,每当 HTML 页面最终变成空白时,它只会删除 DOM 下面的所有内容(包括我必…

土豪 2024-10-09 12:19:09 1 0

Indy - IdHttp 如何处理页面重定向?

使用:Delphi 2010,最新版本的 Indy 我正在尝试从 Google Adsense 网页上抓取数据,目的是获取报告。然而到目前为止我还没有成功。它在第一个请求后…

海螺姑娘 2024-10-09 11:50:40 0 0

提取所有输入参数的 JSP 页面爬虫

您是否知道有一个开源 Java 组件,它提供了扫描一组动态页面 (JSP) 的功能,然后从那里提取所有输入参数。当然,爬虫可以爬取静态代码,而不是动态代…

意犹 2024-10-09 00:42:56 0 0

蟒蛇 +机械化异步任务

所以我有一段 python 代码,它运行在一个美味的页面上,并从中删除一些链接。 extract 方法包含一些神奇的功能,可以提取所需的内容。然而,一个接一…

牵强ㄟ 2024-10-08 21:25:30 0 0

有人可以解释一下这段 HtmlAgilityPack 代码吗?

我已尽力通过代码添加注释,但我有点卡在某些部分。 // create a new instance of the HtmlDocument Class called doc 1: HtmlDocument doc = new Htm…

み格子的夏天 2024-10-08 19:06:41 0 0

根据ID选择表单

出于测试目的,我尝试使用 WWW::Mechanize 编写一个脚本,该脚本将通过 https://api 登录 Gowalla。 gowalla.com/signin 正如我所看到的,登录表单没…

枉心 2024-10-08 13:05:13 0 0

如何在 Chrome 中获取 CSS 选择器?

我希望能够选择/突出显示页面上的元素并找到其选择器,如下所示: div.firstRow div.priceAvail&gtdiv&gtdiv.PriceCompare&gtdiv.BodyS 我知道您可以…

旧人九事 2024-10-08 07:45:44 0 0

在服务器上使用 PHP 解析 HTML 更好,还是在最终用户端使用 JavaScript 解析 HTML 更好?

我需要编写一个脚本,该脚本接受一个链接并解析链接页面的 HTML,以提取标题和其他一些数据,例如可能的简短描述,就像链接到 Facebook 上的某些内容…

眼藏柔 2024-10-07 22:04:25 1 0

如何使用 mechanize 抓取谷歌阅读器(使用 cookie)

我正在尝试抓取谷歌阅读器,但我遇到了问题...我希望登录谷歌阅读器并获得有效的cookie...然后尝试进入此页面: 'http://www.google.es/reader/atom/u…

半城柳色半声笛 2024-10-07 09:02:42 0 0

抓取“元素周期表”的维基页面和所有链接

我希望抓取以下维基文章: http://en.wikipedia.org/wiki/Periodic_table 因此,我的 R 代码的输出将是一个包含以下列的表格: 化学元素简称 化学元素…

ヅ她的身影、若隐若现 2024-10-06 13:56:44 0 0
更多

推荐作者

lioqio

文章 0 评论 0

Single

文章 0 评论 0

禾厶谷欠

文章 0 评论 0

alipaysp_2zg8elfGgC

文章 0 评论 0

qq_N6d4X7

文章 0 评论 0

放低过去

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文