web-crawler

web-crawler

文章 0 浏览 4

HTML 中的安全隐藏文本?

当我读取实际的 HTML 文件时,我需要在 HTML 中包含一些隐藏文本来解析为文本 我曾经使用 style 将我的文本包含在隐藏的 div 中,但我知道这可能会在 …

深海夜未眠 2024-11-29 01:42:04 1 0

存储大型网络爬行数据的最佳方法

我正在为各种社交网站使用 python 网络爬虫,并试图确定存储我屏幕抓取的大量数据(主要是 xml/文本数据)的最佳方式。您能否建议任何合适且易于访问…

定格我的天空 2024-11-28 20:22:47 0 0

限制JS链接被搜索引擎抓取

我想阻止谷歌跟踪我在 JS 中的链接。 我在 robots.txt 中没有找到如何做到这一点 我是不是找错地方了? 更多信息: 我看到谷歌正在抓取这些页面,尽管…

メ斷腸人バ 2024-11-28 13:19:40 0 0

搜索引擎如何处理 :target 显示的内容?

Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 这个问题似乎与帮助中心中定义的范围内…

Hello爱情风 2024-11-28 07:40:05 2 0

如何从 IIPImage 服务器抓取 DeepZoom 图像?

如何获取 IIPImage 服务器上托管的 DeepZoom 图像的所有图块和元数据? IIPImage 支持 IIP 协议(​​没有详细记录)、MS DeepZoom 和 Zoomify…

无所谓啦 2024-11-28 03:49:56 1 0

Python Twitter 爬虫的 While 循环问题

我正在继续编写我的推特爬虫,但遇到了更多问题。看一下下面的代码: from BeautifulSoup import BeautifulSoup import re import urllib2 url = 'htt…

岁月静好 2024-11-28 03:14:24 0 0

Twitter Python爬虫的爬行机制问题

下面是我的 Twitter 爬虫机制的一小段代码: from BeautifulSoup import BeautifulSoup import re import urllib2 url = 'http://mobile.twitter.com/…

梦明 2024-11-27 18:52:46 0 0

属性错误:“NoneType”对象没有属性“strip”;使用 Python WebCrawler

我正在编写一个 python 程序来使用 urllib2、api 的 python twitter 包装器和 BeautifulSoup 的组合来抓取 twitter。但是,当我运行程序时,出现以下…

输什么也不输骨气 2024-11-27 17:33:09 1 0

Applescript:Safari 无法保存网页(AppleEvent 处理程序失败错误)

我希望 safari 使用 apple automator 下载并保存网页。打开 Safari 窗口,我在 AppleScript 编辑器中运行以下脚本: tell application "Safari" set U…

ヅ她的身影、若隐若现 2024-11-27 16:05:34 0 0

模拟网络浏览器来包装几个类似网站的功能

我有兴趣用 C++ 模拟 Web 浏览器的功能,以便为多个网站创建包装器。目前,这些网站最大的问题是它们大量使用与 HTML DOM 交互的 JavaScript。因此,…

酷遇一生 2024-11-27 14:55:49 1 0

有哪些好的 Java 库可以用于搜索和从网页中抓取数据。

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,例如: Address: 123 My Street “地址:”是关键…

摇划花蜜的午后 2024-11-27 06:47:40 0 0

如何使用 AJAX 测试 Google 的抓取能力?

我已经创建了我的网站,因此 site.com/#!/page/var1/ans1/var2/ans2 使用 Javascript映射到 site.com/pages/page.php?var1=ans1&var2=ans2 。我也做了…

再浓的妆也掩不了殇 2024-11-27 05:17:58 0 0

如何忽略网络爬虫?

我有一个页面可以计算用户(注册、访客、各种用户......)访问的次数。 因此,每次查看页面时,我都会更新数据库中的一个字段;是的,如果页面刷新得…

素罗衫 2024-11-27 03:09:26 1 0

Python Crawler - 需要有关我的算法的帮助

** 在帖子末尾添加了问题摘要 ** 我编写了一个抓取和解析 URL 的爬虫。 在第一个版本中,为了获得下一个有效页面,我增加了 URL ID 并将无效 ID 保存…

℡Ms空城旧梦 2024-11-26 19:51:45 0 0

wget 用于获取 Facebook 个人资料/朋友页面

我正在尝试使用“wget”获取 facebook 用户的个人资料页面,但不断获取名为“browser.php”的非个人资料页面,该页面与该特定用户无关。我在浏览器中…

执手闯天涯 2024-11-26 10:01:39 2 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文