第 22 页 - screen-scraping

投稿关注

screen-scraping

文章 0 浏览 5

是否有一个很好的教程可以帮助您了解网站正在做什么，以便您的程序可以做同样的事情？

对于需要以编程方式与动态网站交互的人来说，是否有好的指南或教程？最近出现了大量与此相关的 Perl 问题，但我还没有找到一个好的资源来指导人们。我…

翻身的咸鱼 2024-08-30 17:17:42 6 0

为什么我在 Perl WWW::Mechanize 脚本中每次获取页面时都会得到一个新的会话 ID？

因此，我正在抓取一个可以通过 HTTPS 访问的网站，我可以登录并启动该过程，但每次我点击新页面 (URL) 时，cookie 会话 ID 都会发生变化。如何保留登…

[浮城] 2024-08-30 09:59:07 11 0

有没有办法以编程方式从 iTunes 页面提取播客的提要？

可能的重复：获取最新播客来自 itunes 商店，带有 RSS、JSON 或其他内容的链接来自 iTunes 页面，例如 http://itunes.apple.com/us/podcast/this-w…

倾城月光淡如水﹏ 2024-08-30 06:52:23 6 0

如何在 WatiN 中检测 Javascript 弹出通知？

我正在尝试解决一个似乎相当常见的场景。我有一个网站接受通过两个不同文本字段的输入。如果输入格式错误或无效，我会收到 Javascript 弹出通知。我…

冷…雨湿花 2024-08-29 17:04:53 10 0

为什么我不应该以编程方式向 Facebook/Twitter/Amazon/等提交用户名/密码？

我希望有一个中央、完全可定制、开源、通用的登录系统，允许您登录和管理所有在线帐户（也许有？）... 我刚刚发现 RPXNow 今天开始构建 Sinatra 应用…

晚风撩人 2024-08-29 16:47:05 8 0

如何解析网站？

嘿，我想构建一个可以解析网站以获取特定信息的应用程序。具体来说，可以解析 http://www.fedex.com /Tracking?language=english&cntry_code=us&track…

因为看清所以看轻 2024-08-29 08:17:44 10 0

如何从另一个网站获取IFrame的InnerText？

我正在尝试对网站进行一些屏幕抓取。我想要获取的内容位于 IFrame 内部。如何获取 IFrame 内显示的 InnerText 或 HTML？我正在使用 .Net 4.0 和 C#。…

七颜 2024-08-29 01:12:43 5 0

将给定 URL 中的 HTML 表格抓取到 CSV 中

我寻找一种可以在命令行上运行的工具，如下所示： tablescrape 'http://someURL.foo.com' [n] 如果未指定 n 并且页面上有多个 HTML 表格，它应该总结…

清醇 2024-08-28 20:50:44 8 0

如何使用 Perl 从 JavaScript 动态生成的网页中抓取文本？

我正在尝试从 Perl 中提取一个网站，但是我需要的页面部分是使用 javascript 生成的，因此您在源代码中看到的是：我需要以某种方式提取该 div 的内容…

漫雪独思 2024-08-28 19:31:34 8 0

如何将 .XML 文件保留在内存中，然后将该文档作为常规 XML 文件保存到光盘上？

我将进行一些网络抓取，我的计划是这样的： public class Searcher { public void Search(string searchTerm) { } private void Search(string term) …

感性 2024-08-28 16:06:18 6 0

将（嵌套）HTML 无序列表的链接转换为 PHP 链接数组

我有一个常规的嵌套 HTML 无序列表链接，我想用 PHP 抓取它并将其转换为数组。原始列表看起来像这样： First item Child of First Item Second Child…

此岸叶落 2024-08-28 14:55:55 5 0

如何自动导航到需要身份验证的网站？

这就是我想要实现的目标。我想编写一个脚本，该脚本将导航到一个需要我进行身份验证的网站，例如 Facebook、Live Spaces、Twitter 或任何其他网站，然…

愛放△進行李 2024-08-28 06:28:57 7 0

从可能使用会话 ID 的安全 URL 中抓取页面

如何抓取这样的页面： https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0 它是安全的，并且看起来需要推荐人。我无法使用 …

时光无声 2024-08-28 05:01:07 13 0

Nokogiri、open-uri 和 Unicode 字符

我正在使用 Nokogiri 和 open-uri 来获取网页上标题标签的内容，但在处理重音字符时遇到问题。处理这些问题的最佳方法是什么？这就是我正在做的： req…

很糊涂小朋友 2024-08-27 23:41:54 12 0

如何抓取_私人_谷歌群组？

我想抓取一个私人谷歌群组的讨论列表。这是一个多页列表，我稍后可能需要再次这样做，因此编写脚本听起来是可行的方法。由于这是一个私人群组，我需…

南街九尾狐 2024-08-27 15:42:29 14 0

娇女薄笑

文章 0 评论 0

关注

biaggi

文章 0 评论 0

关注

xiaolangfanhua

文章 0 评论 0

关注

rivulet

文章 0 评论 0

关注

我三岁

文章 0 评论 0

关注

薆情海

文章 0 评论 0

友情链接

文江博客

screen-scraping

是否有一个很好的教程可以帮助您了解网站正在做什么，以便您的程序可以做同样的事情？

为什么我在 Perl WWW::Mechanize 脚本中每次获取页面时都会得到一个新的会话 ID？

有没有办法以编程方式从 iTunes 页面提取播客的提要？

如何在 WatiN 中检测 Javascript 弹出通知？

为什么我不应该以编程方式向 Facebook/Twitter/Amazon/等提交用户名/密码？

如何解析网站？

如何从另一个网站获取IFrame的InnerText？

将给定 URL 中的 HTML 表格抓取到 CSV 中

如何使用 Perl 从 JavaScript 动态生成的网页中抓取文本？

如何将 .XML 文件保留在内存中，然后将该文档作为常规 XML 文件保存到光盘上？

将（嵌套）HTML 无序列表的链接转换为 PHP 链接数组

如何自动导航到需要身份验证的网站？

从可能使用会话 ID 的安全 URL 中抓取页面

Nokogiri、open-uri 和 Unicode 字符

如何抓取_私人_谷歌群组？

热门标签

推荐作者

娇女薄笑

biaggi

xiaolangfanhua

rivulet

我三岁

薆情海

友情链接