将 Salesforce VisualForce 页面视为外部小部件
我想将 Salesforce VisualForce 页面变成我公司网站的小部件。我想使用服务器端代码和服务帐户访问小部件。我将在我的网页中缓存、设置样式并输出小部…
使用 Node.js 进行网页抓取时,我可以在页面上运行所有 JavaScript 吗? (即模拟真实的浏览器?)
我正在尝试使用 Node.js 进行一些网络抓取。使用jsdom,可以轻松加载 DOM 并将 JavaScript 注入其中。我想更进一步:运行从网页链接到的所有 JavaScri…
通过 nokogiri 或 hpricot 进行屏幕抓取
我正在尝试获取给定 xpath 的实际值。我在sample.rb 文件中有以下代码 require 'rubygems' require 'nokogiri' require 'open-uri' doc = Nokogiri::H…
preg_match 与 '.jpg' 不准确图案
我使用 preg_match 和模式 $pattern = '/src="http:\/\/(.*?).jpg"/s'; 来获取网址网页上的 jpeg 图像。但是,这不够准确,因为它还抓取 http://www.d…
Python - 屏幕抓取 Yahoo!梦幻足球游戏频道
所以我正在尝试抓取雅虎游戏频道/startracker,这样我就可以在玩家获得积分时获取幻想队的更新,这样我就可以在Excel中制作图表。网站网址基本上是 ht…
Foreach DOM 解析器
有谁知道为什么这行不通? foreach($html->find('tbody.result') as $article) { // get retail $item['Retail'] = trim($article->find('span.price'…
需要帮助来构建“机器人”从 HTTP 请求中提取数据
我正在使用 ASP.net 和 C# 构建一个网站,其组件之一涉及代表用户登录用户拥有帐户的网站(例如移动电话公司),从该网站获取信息并存储它在我们的数…
HtmlUnit iframe 与 javascript src
我正在尝试抓取 Google 关键字工具,但遇到了带有 javascript src 的 iframe 的问题。我以为 HtmlUnit 会自动处理这个问题,但是没有。我在谷歌上搜索…
从 What.cd 检索页面
我正在使用 BeautifulSoup for What.cd 使用 Python 开发屏幕抓取工具。我在工作时遇到了这个脚本并决定看看它,因为它看起来与我正在做的事情相似。…
使用 python 机器人解析器
我不明白如何使用 robotsparser 模块中的解析函数。这是我尝试过的: In [28]: rp.set_url("http://anilattech.wordpress.com/robots.txt") In [29]: …