screen-scraping

screen-scraping

文章 0 浏览 5

DOM 和XPath 抓取 - 当只需要一个时,返回两个 li 元素文本

到目前为止,这是我的代码。 $dom_currys = new DOMDocument; libxml_use_internal_errors(TRUE); $dom_currys->loadHTMLFile('http://www.currys.co.…

初雪 2024-11-03 07:48:05 3 0

SQL UPDATE 没有更新数据库,我的 SQL 语句有问题吗?

这是我第一次尝试“真正的”C# 程序。它采用指定的目录,提取文件名(不带扩展名)并将其写入 SQL 数据库。然后,该数据被读回到数组中,并传递到下面…

不弃不离 2024-11-03 01:46:47 6 0

抓取推文 - 使用网站还是 API 更好?

我正在使用 twitter gem 在 Ruby 中构建 Twitter 机器人。我试图使其能够自我维持,所以我希望它通过抓取其社交圈之外的用户的推文来生成自己的推文内…

恏ㄋ傷疤忘ㄋ疼 2024-11-02 16:19:51 4 0

Node.js 抓取工具中的内存泄漏

这是一个用 JavaScript 和 Node.js 编写的简单抓取工具,用于抓取 Wikipedia 中的元素周期表元素数据。依赖项是用于 DOM 操作的 jsdom 和 chain-gang …

如梦 2024-11-02 14:00:04 2 0

获取用户名/密码身份验证背后的数据

我想从论坛下载一些数据。包含数据的页面仅对注册用户可见。这是一个包含用户数据的示例网页; http://www.bikeforums.net/member.php/227664-StackOv…

没有心的人 2024-11-02 09:10:16 4 0

ruby nokogiri Restclient 来抓取 javascript 变量

我正在使用restclient和nokogiri来解析一些效果很好的html,但是有一条信息存储在我需要返回的js(jquery)变量中,并且我不确定如何解析它。我可以使…

从来不烧饼 2024-11-02 04:39:16 3 0

从外部网站渲染图像时如何防止 XSS 攻击

我公司将允许客户将建议发布到我们的网站上。 此功能与 Facebook 分享链接非常相​​似。 我们的客户将输入一个 URL,我们将抓取网站、检索图像、描述…

无远思近则忧 2024-11-01 20:58:14 5 0

SeleniumRC CSS 定位器可能比 XPath 慢的原因?

我有一些代码可以使用 SeleniumRC 进行模拟递归树遍历以从 HTML 树中抓取内容。我使用 Xpath 和 CSS 定位器运行代码。 该树被表示为一系列嵌套表。如…

痴情 2024-11-01 09:55:29 4 0

如何模仿 Facebook 的“链接共享”使用node.js和javascript的功能

所以我想模仿的是Facebook提供的链接分享功能。您只需输入 URL,然后 FB 就会自动从目标网站获取图像、标题和简短描述。如何使用 Node.js 和其他可能…

篱下浅笙歌 2024-11-01 08:08:24 3 0

如何解析特定的 wiki 页面&自动化吗?

我正在尝试制作一个网络应用程序,需要解析一个特定的维基百科页面和页面。提取一些以表格格式存储在页面上的信息。然后,提取的数据需要存储到数据库…

风渺 2024-11-01 04:00:42 3 0

从网页获取信息

我并不是真正的程序员(更多的是脚本编写者),并且使用 AutoIt 编写了一个非常快速的脚本!从 HP 网站收集有关我们拥有的计算机列表的信息。我想我应…

听风吹 2024-10-31 15:13:31 2 0

页面抓取以从谷歌财经获取价格

我试图通过抓取谷歌金融页面来获取股票价格,我在 python 中使用 urllib 包,然后使用正则表达式来获取价格数据。 当我让 python 脚本运行时,它最初…

饮惑 2024-10-31 12:56:48 6 0

遵循重定向并编码为 UTF-8 的 Screen scaper

我正在寻找一个 gem(或 gem 的组合),它可以在给定 URL 的情况下以 UTF-8 返回页面内容。如果 URL 发生更改,它也应该遵循重定向。 有谁知道这样的…

只涨不跌 2024-10-31 08:52:19 8 0

如何从网站上抓取徽标?

首先,这不是一个关于如何抓取网站的问题。我完全了解可用于抓取的工具(css_parser、nokogiri 等。我使用 Ruby 进行抓取)。 这更多的是关于从网站地…

最初的梦 2024-10-31 06:05:12 4 0

Xpath 和通配符

我尝试了几种组合但没有成功。该数据的完整 xpath 为 .//*[@id='detail_row_seek_37878']/td 问题是每个节点的数字部分“37878”发生变化,因此我无法…

善良天后 2024-10-31 06:04:09 6 0
更多

推荐作者

娇女薄笑

文章 0 评论 0

biaggi

文章 0 评论 0

xiaolangfanhua

文章 0 评论 0

rivulet

文章 0 评论 0

我三岁

文章 0 评论 0

薆情海

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文