以编程方式检查远程网站是否“显示”特定的 html 元素
我想要求我的免费用户添加一个链接回我的网站。但是,我想以编程方式检查它们确实添加了我提供的 linkback html 元素,并且没有被某种 CSS 和 Javascr…
使用 Python 下载 URL 的 html - 但启用了 javascript
我正在尝试下载此页面,以便我可以抓取搜索结果。但是,当我下载页面并尝试使用 BeautifulSoup 处理它时,我发现页面的某些部分(例如搜索结果)未包…
使用 Ruby 和 Mechanize 登录网站
我需要从网站上抓取数据,但这需要我先登录。我一直在使用 hpricot 成功地抓取其他网站,但我对使用 mechanize 还很陌生,而且我真的对如何使用它感到…
使用 urllib2 避免 503 错误
我是用 python 进行网络抓取的新手,所以我不知道我这样做是否正确。 我正在使用一个调用 BeautifulSoup 的脚本来解析 google 搜索的前 10 页中的 URL…
PHP HTML DOM:如何选择所有可见/可读文本?
我试图抓取网站,通过保留 html 结构来修改所有可见文本(意思是:链接、段落、标题等),然后渲染“新”页面。 基本上我想在不破坏设计/功能的情况下…
Watir 更改 Mozilla Firefox 首选项
我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作。我正在尝试自动将一些文件保存到某个目录。因此,在我的 Mozilla 设置中,我将默认下载目录设置…
帮助使用 perl 代码解析文件
我是 Perl 新手,对语法有疑问。我收到此代码用于解析包含特定信息的文件。我想知道子例程 get_number 的 if (/DID/) 部分在做什么?这是利用正则表达…
如何使用js/coffee来屏幕抓取asp页面?
我有一个网站,我想从中提取数据,但它确实停留在石器时代。没有 Web 服务,没有 API,它基本上是一个 ASP/会话/基于表的布局页面。相当难看。 我想只…
如何使用jsoup用span标签替换单词?
假设我有以下 html: I am going by flying mr tt 文本节点中等于或大于 4 个字符的任何单词(例如单词“going”)将替换为 html 内容(不是文本)goi…
Python-是否有一个模块可以自动从网页上抓取文章内容?
我知道有 lxml 和 BeautifulSoup,但这对我的项目不起作用,因为我事先不知道我试图从中抓取文章的网站的 HTML 格式是什么。是否有一个类似于 Readabi…
如何使用 htmlunit 更新 html 中的内容?
我发现使用 htmlunit 来动态创建新的 html 内容非常困难,就像我们在 jquery 中所做的那样。 例如给定一个文本节点: I am text 我想将该文本节点更改…
PHP CURL - 抓取以 HTML 形式返回的 xml 数据
可能的重复: PHP 的最佳 XML 解析器 我是 PHP 和 cURL 的新手,所以请给出简单的步骤! :) 我正在尝试从将 XML 数据作为 HTML 返回的网站中抓取数据…