抓取 .HTM 文件时遇到问题
我刚刚开始从网页上抓取基本文本,目前正在使用 HTMLAgilityPack C# 库。我在竞争对手.yahoo.com 上取得了一些成功(体育是我的爱好,所以为什么不抓…
选择哪种语言从指定页面获取数据?
Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…
如何在 Google App Engine 上执行网页抓取以查找 Java 中的特定链接页面?
我需要从不提供 RSS 源的远程网站检索文本。 我所知道的是,我需要的数据始终位于从主页 (http://www.example.com/) 链接到的页面上,其中包含文本“ …
禁用 cURL 和allow_url_fopen 时如何抓取网站
我知道有关 PHP 网页抓取工具的问题已经被多次询问,并且使用这个问题,我发现了 SimpleHTMLDOM。在我的本地服务器上无缝工作后,我将所有内容上传到…
任何脚本语言都可以读取 AJAX/Java 脚本吗? (Linux)
有什么方法可以抓取使用AJAX的网页吗? 通过在linux服务器上使用诸如ruby + mechanize之类的东西,没有连接监视器(例如linode.com) http://watir.co…
在 Rails 3 中使用 Scrapi.. 出现分段错误错误/中止陷阱
到目前为止我所做的.. sudo gem install scrapi sudo gem install tidy 这不起作用,因为它没有 libtidy.dylib 所以我这样做了: sudo port install t…
如何从电子邮件地址识别网络邮件服务?
如果我有电子邮件地址,例如 [电子邮件受保护] 我可以从gmail.com域名识别出它属于gmail webmail服务。还有属于同一服务的 googlemail.com 地址。 是…
如何在 Perl 网络爬虫中处理 Javascript?
我想抓取一个网站,问题是,它充满了 JavaScript 的东西,比如按钮等,当按下它们时,它们不会改变 URL,但页面上的数据会改变。 通常我使用 LWP / Me…
卷曲问题,无法下载完整网页
使用此代码,我尝试下载此网页: http://www.kayak.com/s/... $ch = curl_init() curl_setopt($ch, CURLOPT_URL,'http://www.kayak.com/s/search/air?…
用Javascript解析SHOUTcast服务器信息表?
我目前正在尝试解析html页面 http://84.19.184.204:8000/played.html< /a> 使用 JS。 但这很难,因为我是 JS 新手...html 页面包含一个表格,其中…
尝试抓取 div 的整个内容
我正在开发这个项目,我想使用来自 touch.facebook.com 的 iframe 中的 facebook 地点添加一个非常小的附近地点列表,我可以轻松地使用 touch.faceboo…