DOM 和XPath 抓取 - 当只需要一个时,返回两个 li 元素文本
到目前为止,这是我的代码。 $dom_currys = new DOMDocument; libxml_use_internal_errors(TRUE); $dom_currys->loadHTMLFile('http://www.currys.co.…
SQL UPDATE 没有更新数据库,我的 SQL 语句有问题吗?
这是我第一次尝试“真正的”C# 程序。它采用指定的目录,提取文件名(不带扩展名)并将其写入 SQL 数据库。然后,该数据被读回到数组中,并传递到下面…
抓取推文 - 使用网站还是 API 更好?
我正在使用 twitter gem 在 Ruby 中构建 Twitter 机器人。我试图使其能够自我维持,所以我希望它通过抓取其社交圈之外的用户的推文来生成自己的推文内…
Node.js 抓取工具中的内存泄漏
这是一个用 JavaScript 和 Node.js 编写的简单抓取工具,用于抓取 Wikipedia 中的元素周期表元素数据。依赖项是用于 DOM 操作的 jsdom 和 chain-gang …
获取用户名/密码身份验证背后的数据
我想从论坛下载一些数据。包含数据的页面仅对注册用户可见。这是一个包含用户数据的示例网页; http://www.bikeforums.net/member.php/227664-StackOv…
ruby nokogiri Restclient 来抓取 javascript 变量
我正在使用restclient和nokogiri来解析一些效果很好的html,但是有一条信息存储在我需要返回的js(jquery)变量中,并且我不确定如何解析它。我可以使…
从外部网站渲染图像时如何防止 XSS 攻击
我公司将允许客户将建议发布到我们的网站上。 此功能与 Facebook 分享链接非常相似。 我们的客户将输入一个 URL,我们将抓取网站、检索图像、描述…
SeleniumRC CSS 定位器可能比 XPath 慢的原因?
我有一些代码可以使用 SeleniumRC 进行模拟递归树遍历以从 HTML 树中抓取内容。我使用 Xpath 和 CSS 定位器运行代码。 该树被表示为一系列嵌套表。如…
如何模仿 Facebook 的“链接共享”使用node.js和javascript的功能
所以我想模仿的是Facebook提供的链接分享功能。您只需输入 URL,然后 FB 就会自动从目标网站获取图像、标题和简短描述。如何使用 Node.js 和其他可能…
遵循重定向并编码为 UTF-8 的 Screen scaper
我正在寻找一个 gem(或 gem 的组合),它可以在给定 URL 的情况下以 UTF-8 返回页面内容。如果 URL 发生更改,它也应该遵循重定向。 有谁知道这样的…
Xpath 和通配符
我尝试了几种组合但没有成功。该数据的完整 xpath 为 .//*[@id='detail_row_seek_37878']/td 问题是每个节点的数字部分“37878”发生变化,因此我无法…