screen-scraping

screen-scraping

文章 0 浏览 5

以编程方式检查远程网站是否“显示”特定的 html 元素

我想要求我的免费用户添加一个链接回我的网站。但是,我想以编程方式检查它们确实添加了我提供的 linkback html 元素,并且没有被某种 CSS 和 Javascr…

生来就爱笑 2024-11-19 16:58:23 3 0

使用 Python 下载 URL 的 html - 但启用了 javascript

我正在尝试下载此页面,以便我可以抓取搜索结果。但是,当我下载页面并尝试使用 BeautifulSoup 处理它时,我发现页面的某些部分(例如搜索结果)未包…

峩卟喜欢 2024-11-19 13:22:30 0 0

使用 Ruby 和 Mechanize 登录网站

我需要从网站上抓取数据,但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站,但我对使用 mechanize 还很陌生,而且我真的对如何使用它感到…

邮友 2024-11-19 13:14:22 5 0

使用 urllib2 避免 503 错误

我是用 python 进行网络抓取的新手,所以我不知道我这样做是否正确。 我正在使用一个调用 BeautifulSoup 的脚本来解析 google 搜索的前 10 页中的 URL…

少跟Wǒ拽 2024-11-19 03:33:07 3 0

PHP HTML DOM:如何选择所有可见/可读文本?

我试图抓取网站,通过保留 html 结构来修改所有可见文本(意思是:链接、段落、标题等),然后渲染“新”页面。 基本上我想在不破坏设计/功能的情况下…

盛夏尉蓝 2024-11-18 19:04:03 0 0

Watir 更改 Mozilla Firefox 首选项

我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作。我正在尝试自动将一些文件保存到某个目录。因此,在我的 Mozilla 设置中,我将默认下载目录设置…

唠甜嗑 2024-11-18 10:07:02 1 0

帮助使用 perl 代码解析文件

我是 Perl 新手,对语法有疑问。我收到此代码用于解析包含特定信息的文件。我想知道子例程 get_number 的 if (/DID/) 部分在做什么?这是利用正则表达…

冷情 2024-11-18 07:23:32 1 0

如何使用js/coffee来屏幕抓取asp页面?

我有一个网站,我想从中提取数据,但它确实停留在石器时代。没有 Web 服务,没有 API,它基本上是一个 ASP/会话/基于表的布局页面。相当难看。 我想只…

诺曦 2024-11-17 23:48:53 1 0

无法让 Xpath 只输出一些 TD

如果你知道怎么做的话,这可能真的很容易,但我不知道,在花了几个小时谷歌搜索之后,我不得不问一些“真正的”程序员,因为我显然不是其中之一。 我…

心安伴我暖 2024-11-17 23:14:51 2 0

如何使用jsoup用span标签替换单词?

假设我有以下 html: I am going by flying mr tt 文本节点中等于或大于 4 个字符的任何单词(例如单词“going”)将替换为 html 内容(不是文本)goi…

三生池水覆流年 2024-11-17 22:35:35 0 0

Python-是否有一个模块可以自动从网页上抓取文章内容?

我知道有 lxml 和 BeautifulSoup,但这对我的项目不起作用,因为我事先不知道我试图从中抓取文章的网站的 HTML 格式是什么。是否有一个类似于 Readabi…

我爱人 2024-11-17 21:49:19 0 0

如何使用 htmlunit 更新 html 中的内容?

我发现使用 htmlunit 来动态创建新的 html 内容非常困难,就像我们在 jquery 中所做的那样。 例如给定一个文本节点: I am text 我想将该文本节点更改…

凡间太子 2024-11-17 18:27:15 2 0

iTunes 应用商店网页抓取

我希望用户在网站上输入应用程序 ID,保存应用程序(我的 sql 数据库)中的信息,然后在网站上显示该信息。 如果有人介意分享用于执行此操作的代码/流…

画中仙 2024-11-16 23:02:17 1 0

PHP CURL - 抓取以 HTML 形式返回的 xml 数据

可能的重复: PHP 的最佳 XML 解析器 我是 PHP 和 cURL 的新手,所以请给出简单的步骤! :) 我正在尝试从将 XML 数据作为 HTML 返回的网站中抓取数据…

厌味 2024-11-16 18:47:19 1 0

jsoup 发布和 cookie

我正在尝试使用 jsoup 登录网站,然后抓取信息,我遇到了问题,我可以成功登录并从 index.php 创建文档,但我无法获取网站上的其他页面。我知道我需要…

雾里花 2024-11-16 13:30:18 1 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文