第 7 页 - web-crawler

web-crawler

文章 0 浏览 4

Twitter Python爬虫的爬行机制问题

下面是我的 Twitter 爬虫机制的一小段代码： from BeautifulSoup import BeautifulSoup import re import urllib2 url = 'http://mobile.twitter.com/…

梦明 2024-11-27 18:52:46 1 0

属性错误：“NoneType”对象没有属性“strip”；使用 Python WebCrawler

我正在编写一个 python 程序来使用 urllib2、api 的 python twitter 包装器和 BeautifulSoup 的组合来抓取 twitter。但是，当我运行程序时，出现以下…

输什么也不输骨气 2024-11-27 17:33:09 2 0

Applescript：Safari 无法保存网页（AppleEvent 处理程序失败错误）

我希望 safari 使用 apple automator 下载并保存网页。打开 Safari 窗口，我在 AppleScript 编辑器中运行以下脚本： tell application "Safari" set U…

ヅ她的身影、若隐若现 2024-11-27 16:05:34 0 0

模拟网络浏览器来包装几个类似网站的功能

我有兴趣用 C++ 模拟 Web 浏览器的功能，以便为多个网站创建包装器。目前，这些网站最大的问题是它们大量使用与 HTML DOM 交互的 JavaScript。因此，…

酷遇一生 2024-11-27 14:55:49 2 0

有哪些好的 Java 库可以用于搜索和从网页中抓取数据。

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如，假设我有一个页面，例如： Address: 123 My Street “地址：”是关键…

摇划花蜜的午后 2024-11-27 06:47:40 0 0

如何使用 AJAX 测试 Google 的抓取能力？

我已经创建了我的网站，因此 site.com/#!/page/var1/ans1/var2/ans2 使用 Javascript映射到 site.com/pages/page.php?var1=ans1&var2=ans2 。我也做了…

再浓的妆也掩不了殇 2024-11-27 05:17:58 1 0

如何忽略网络爬虫？

我有一个页面可以计算用户（注册、访客、各种用户......）访问的次数。因此，每次查看页面时，我都会更新数据库中的一个字段；是的，如果页面刷新得…

素罗衫 2024-11-27 03:09:26 2 0

Python Crawler - 需要有关我的算法的帮助

** 在帖子末尾添加了问题摘要 ** 我编写了一个抓取和解析 URL 的爬虫。在第一个版本中，为了获得下一个有效页面，我增加了 URL ID 并将无效 ID 保存…

℡Ms空城旧梦 2024-11-26 19:51:45 1 0

wget 用于获取 Facebook 个人资料/朋友页面

我正在尝试使用“wget”获取 facebook 用户的个人资料页面，但不断获取名为“browser.php”的非个人资料页面，该页面与该特定用户无关。我在浏览器中…

执手闯天涯 2024-11-26 10:01:39 2 0

Python urllib2 和 [errno 10054] 现有连接被远程主机强制关闭以及一些 urllib2 问题

我编写了一个使用 urllib2 来获取 URL 的爬虫。每隔几个请求我就会收到一些奇怪的行为，我尝试用 Wireshark 对其进行分析，但无法理解问题。 getPAGE…

自控 2024-11-26 09:49:35 0 0

C# 基于网络的爬虫

我有几个关于爬虫的问题。我可以创建一个纯粹在网络上运行的爬虫吗？我的意思是，一个可以从网络项目的管理页面启动或停止的爬虫。用什么语言编写爬…

握住你手 2024-11-26 08:11:13 1 0

搜索引擎（Google、yahoo、bing 等）如何处理重复的内容页面

我想知道搜索引擎处理具有重复内容的页面背后的方法。我一般搜索蜘蛛会计算该内容是原创的还是重复的。…

橘虞初梦 2024-11-26 07:00:58 2 0

Python：调用 Python 对象时超出最大递归深度

我构建了一个爬虫，它必须在大约 5M 页面上运行（通过增加 url ID），然后解析包含我需要的信息的页面。使用在网址（200K）上运行的算法并保存好的和…

几味少女 2024-11-26 00:43:15 1 0

面试问题：蜜罐和网络爬虫

我最近正在读一本书，为面试做准备，并遇到了以下问题：当你的爬虫遇到一个蜜罐并生成一个无限的子图供你徘徊时，你会怎么做？我想为这个问题找到一…

梦里的微风 2024-11-25 15:00:10 2 0

C# Windows.forms 中的网络蜘蛛/爬虫

我用 VC# 创建了一个网络爬虫。爬网程序通过暴力破解所有可能的 .nl 地址（以 http://aa.nl（理论上）http://zzzzzzzzzzzzzzzzzzzz.nl。它工作得很好…

汹涌人海 2024-11-25 12:47:51 0 0

共 38 页
上一页
5
6
7
8
9
下一页

友情链接

文江博客