如何让 RoR 图像抓取/解析工具与需要密码才能进入的网站一起工作?
我最近与一名开发人员签约,开发了一个图像抓取工具,类似于 Facebook 的工具,它对于任何不需要密码进入的网站都非常有效,但在不久的将来,我想扩展…
如何使用简单的 HTML DOM 来抓取它
我正在尝试使用简单的 html dom 从如下所示的文件中提取元素。 该文件有几个看起来相同的表class=sometable。 每个表都有一些。 然后在每个 tr 中,我…
将网络抓取工具添加到 WordPress 网站,类似于 Facebook 功能
我确信每个人都知道,当您在 Facebook 上输入网址(无论是在状态中还是在发表评论时),它会自动从文章中检索图像以及我认为的标题和元描述。 我真的…
行为怪异的美丽汤字符串方法
我正在尝试在此页面中获取图像 - http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&sto…
C++ 的网络抓取工具类似于 Perl 的 WWW::Mechanize?
我想知道是否有类似于 Perl 的 WWW::Mechanize 的 C++ 网络抓取库/API?我不仅在寻找 HTML 解析本身,而且还支持有状态 HTTP 浏览、Web 表单提交以及…
使用zombie.js 进行网站抓取的问题
我需要做一些网络抓取。在使用了不同的 Web 测试框架之后,其中大多数框架要么太慢(Selenium),要么对我的需求来说有太多错误(env.js),我决定 zo…
如何在 Google Chrome 网上应用店中检索扩展程序的所有公开评论 - JSON &跨域问题
我有兴趣收集/抓取有关 Chrome 网上应用店中可用的流行扩展程序所获得的评论的数据。 特别是,我需要检索特定扩展的剩余评论总数,然后检索该插件公开…
Firefox 自动化获取 xml
我希望从 Flash 站点获取一些数据。现在无法直接从html获取数据。现在我注意到,当我单击 Flash 站点的某些部分时,使用 Firebug 会向浏览器发送一个…
使用 Mechanize for Ruby 屏幕抓取 Akamai 的控制面板 - Cookie 问题
我试图从 Akamai 的控制面板中截取一些数据,但在通过 mechanize for Ruby 登录页面时遇到问题。 require 'rubygems' require 'mechanize' agent = Me…
如何获取网站上 javascript/ajax 加载的 div 的内容?
我有一个 PHP 脚本,它使用 CURL 和 simple_html_dom PHP 库从另一个网站加载页面内容。这很好用。如果我回显返回的 HTML,我可以看到那里的 div 内容…
添加功能后,Greasemonkey 中的简单用户脚本不再工作
我刚刚开始使用 Greasemonkey,并尝试制作一个可以抓取页面的用户脚本 - 在开始之前,我尝试运行一些测试来提高我对 Greasemonkey 的熟悉程度(例如,…
Jquery加载同域页面
我一直在尝试使用 JQuery 的 .load() 函数加载 URL。 我有一个网址 - https://stanfordwho.stanford.edu/SWApp/authSearch.do?search=pra **&stanford…
填写 内的文本区域带有 python mechanize 的标签
我在机械化从标签内注册文本区域字段时遇到问题。 示例 URL: http://www.gegononta.gr/register.php 代码: mech = mechanize.Browser() url = "http…