是否有一个很好的教程可以帮助您了解网站正在做什么,以便您的程序可以做同样的事情?
对于需要以编程方式与动态网站交互的人来说,是否有好的指南或教程?最近出现了大量与此相关的 Perl 问题,但我还没有找到一个好的资源来指导人们。我…
为什么我在 Perl WWW::Mechanize 脚本中每次获取页面时都会得到一个新的会话 ID?
因此,我正在抓取一个可以通过 HTTPS 访问的网站,我可以登录并启动该过程,但每次我点击新页面 (URL) 时,cookie 会话 ID 都会发生变化。如何保留登…
有没有办法以编程方式从 iTunes 页面提取播客的提要?
可能的重复: 获取最新播客来自 itunes 商店,带有 RSS、JSON 或其他内容的链接 来自 iTunes 页面,例如 http://itunes.apple.com/us/podcast/this-w…
如何在 WatiN 中检测 Javascript 弹出通知?
我正在尝试解决一个似乎相当常见的场景。 我有一个网站接受通过两个不同文本字段的输入。如果输入格式错误或无效,我会收到 Javascript 弹出通知。 我…
为什么我不应该以编程方式向 Facebook/Twitter/Amazon/等提交用户名/密码?
我希望有一个中央、完全可定制、开源、通用的登录系统,允许您登录和管理所有在线帐户(也许有?)... 我刚刚发现 RPXNow 今天开始构建 Sinatra 应用…
如何从另一个网站获取IFrame的InnerText?
我正在尝试对网站进行一些屏幕抓取。我想要获取的内容位于 IFrame 内部。如何获取 IFrame 内显示的 InnerText 或 HTML? 我正在使用 .Net 4.0 和 C#。…
将给定 URL 中的 HTML 表格抓取到 CSV 中
我寻找一种可以在命令行上运行的工具,如下所示: tablescrape 'http://someURL.foo.com' [n] 如果未指定 n 并且页面上有多个 HTML 表格,它应该总结…
如何使用 Perl 从 JavaScript 动态生成的网页中抓取文本?
我正在尝试从 Perl 中提取一个网站,但是我需要的页面部分是使用 javascript 生成的,因此您在源代码中看到的是: <div id="results"></div> …
如何将 .XML 文件保留在内存中,然后将该文档作为常规 XML 文件保存到光盘上?
我将进行一些网络抓取,我的计划是这样的: public class Searcher { public void Search(string searchTerm) { } private void Search(string term) …
将(嵌套)HTML 无序列表的链接转换为 PHP 链接数组
我有一个常规的嵌套 HTML 无序列表链接,我想用 PHP 抓取它并将其转换为数组。 原始列表看起来像这样: <ul> <li><a href="http://someurl.…
如何自动导航到需要身份验证的网站?
这就是我想要实现的目标。我想编写一个脚本,该脚本将导航到一个需要我进行身份验证的网站,例如 Facebook、Live Spaces、Twitter 或任何其他网站,然…
从可能使用会话 ID 的安全 URL 中抓取页面
如何抓取这样的页面: https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0 它是安全的,并且看起来需要推荐人。我…
Nokogiri、open-uri 和 Unicode 字符
我正在使用 Nokogiri 和 open-uri 来获取网页上标题标签的内容,但在处理重音字符时遇到问题。处理这些问题的最佳方法是什么?这就是我正在做的: req…