我如何登录、导航并从受保护的网站返回数据,到目前为止我所做的一切都不起作用
虽然我发现了许多关于如何使用 HttpWebRequest 和 Response 进行 GET 和 POST 的文章和其他信息,但我发现自己很难让事情像我期望的那样工作。 我一直…
WWW:机械化表格选择
我正在尝试使用 WWW:Mechanize 登录 Youtube,并在登录后使用 forms() 打印出页面上的所有表单。我的脚本已成功登录,并且也成功导航到 Youtube.com/i…
使用 scrapy 抓取 yahoo 群组时出现问题
我是网络抓取新手,刚刚开始尝试 Scrapy,这是一个用 Python 编写的抓取框架。我的目标是清理旧的雅虎集团,因为他们不提供 API 或任何其他方式来检索…
使用 BeautifulSoup 时抑制/忽略特定类型错误的任何方法
我抓取的每个页面上都有许多元素,但许多页面没有我需要的所有项目,因此我最终不得不将每个项目都包裹在其中, try: itemNeeded = soup.find(text="y…
如何使用 scraped_resource gem 设置抓取?
我发现了 scraped_resource gem,这听起来是进行屏幕抓取的好方法。如何使用这个 gem 创建一个刮刀?这是全新的,所以我找不到任何文档。 http://gith…
为每个发出的请求清除 Firefox 中的会话(Watir 问题)
我正在开发一个屏幕抓取机器人,它使用 Watir (ruby) 来抓取特定的网络搜索。 使用 Watir 是因为搜索结果以页面形式提供,只能通过 AJAX 请求获得。 …
php xpath 屏幕抓取问题
好吧,这看起来很简单,但我根本无法让这个编码工作... $html = new DOMDocument() @$html->loadHtmlFile('http://www.groupon.com/deals/the-newfo…
使用Python和Mechanize提交表单数据并进行身份验证
我想要登录 Reddit.com 网站,导航到页面的特定区域,然后提交评论。我不明白这段代码有什么问题,但它不起作用,因为 Reddit 网站上没有反映任何更改…
我如何“获得”将美国所有酒吧/俱乐部的数据存入数据库。叫喊 API?
我想做的是创建美国所有酒吧的数据库。我需要半定期(每周左右)更新此数据库以包含新开的酒吧。 yelp api 的问题是它们只会返回 20 个结果。我方圆 5…
我应该如何安排一天内多次 Google 搜索抓取?
目前,我的 Nokogiri 脚本会迭代 Google 的 SERP,直到找到目标网站的位置。它对每个用户指定的每个网站的每个关键字执行此操作(用户可以跟踪的网站…