web-crawler

web-crawler

文章 0 浏览 4

Twitter Python爬虫的爬行机制问题

下面是我的 Twitter 爬虫机制的一小段代码: from BeautifulSoup import BeautifulSoup import re import urllib2 url = 'http://mobile.twitter.com/…

梦明 2024-11-27 18:52:46 1 0

属性错误:“NoneType”对象没有属性“strip”;使用 Python WebCrawler

我正在编写一个 python 程序来使用 urllib2、api 的 python twitter 包装器和 BeautifulSoup 的组合来抓取 twitter。但是,当我运行程序时,出现以下…

输什么也不输骨气 2024-11-27 17:33:09 2 0

Applescript:Safari 无法保存网页(AppleEvent 处理程序失败错误)

我希望 safari 使用 apple automator 下载并保存网页。打开 Safari 窗口,我在 AppleScript 编辑器中运行以下脚本: tell application "Safari" set U…

ヅ她的身影、若隐若现 2024-11-27 16:05:34 0 0

模拟网络浏览器来包装几个类似网站的功能

我有兴趣用 C++ 模拟 Web 浏览器的功能,以便为多个网站创建包装器。目前,这些网站最大的问题是它们大量使用与 HTML DOM 交互的 JavaScript。因此,…

酷遇一生 2024-11-27 14:55:49 2 0

有哪些好的 Java 库可以用于搜索和从网页中抓取数据。

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,例如: Address: 123 My Street “地址:”是关键…

摇划花蜜的午后 2024-11-27 06:47:40 0 0

如何使用 AJAX 测试 Google 的抓取能力?

我已经创建了我的网站,因此 site.com/#!/page/var1/ans1/var2/ans2 使用 Javascript映射到 site.com/pages/page.php?var1=ans1&var2=ans2 。我也做了…

再浓的妆也掩不了殇 2024-11-27 05:17:58 1 0

如何忽略网络爬虫?

我有一个页面可以计算用户(注册、访客、各种用户......)访问的次数。 因此,每次查看页面时,我都会更新数据库中的一个字段;是的,如果页面刷新得…

素罗衫 2024-11-27 03:09:26 2 0

Python Crawler - 需要有关我的算法的帮助

** 在帖子末尾添加了问题摘要 ** 我编写了一个抓取和解析 URL 的爬虫。 在第一个版本中,为了获得下一个有效页面,我增加了 URL ID 并将无效 ID 保存…

℡Ms空城旧梦 2024-11-26 19:51:45 1 0

wget 用于获取 Facebook 个人资料/朋友页面

我正在尝试使用“wget”获取 facebook 用户的个人资料页面,但不断获取名为“browser.php”的非个人资料页面,该页面与该特定用户无关。我在浏览器中…

执手闯天涯 2024-11-26 10:01:39 2 0

Python urllib2 和 [errno 10054] 现有连接被远程主机强制关闭以及一些 urllib2 问题

我编写了一个使用 urllib2 来获取 URL 的爬虫。 每隔几个请求我就会收到一些奇怪的行为,我尝试用 Wireshark 对其进行分析,但无法理解问题。 getPAGE…

自控 2024-11-26 09:49:35 0 0

C# 基于网络的爬虫

我有几个关于爬虫的问题。 我可以创建一个纯粹在网络上运行的爬虫吗?我的意思是,一个可以从网络项目的管理页面启动或停止的爬虫。 用什么语言编写爬…

握住你手 2024-11-26 08:11:13 1 0

搜索引擎(Google、yahoo、bing 等)如何处理重复的内容页面

我想知道搜索引擎处理具有重复内容的页面背后的方法。 我一般搜索蜘蛛会计算该内容是原创的还是重复的。…

橘虞初梦 2024-11-26 07:00:58 2 0

Python:调用 Python 对象时超出最大递归深度

我构建了一个爬虫,它必须在大约 5M 页面上运行(通过增加 url ID),然后解析包含我需要的信息的页面。 使用在网址(200K)上运行的算法并保存好的和…

几味少女 2024-11-26 00:43:15 1 0

面试问题:蜜罐和网络爬虫

我最近正在读一本书,为面试做准备,并遇到了以下问题: 当你的爬虫遇到一个蜜罐并生成一个无限的子图供你徘徊时,你会怎么做? 我想为这个问题找到一…

梦里的微风 2024-11-25 15:00:10 2 0

C# Windows.forms 中的网络蜘蛛/爬虫

我用 VC# 创建了一个网络爬虫。爬网程序通过暴力破解所有可能的 .nl 地址(以 http://aa.nl(理论上)http://zzzzzzzzzzzzzzzzzzzz.nl。 它工作得很好…

汹涌人海 2024-11-25 12:47:51 0 0
更多

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文