web-crawler

web-crawler

文章 0 浏览 4

如何在进行过程中随机向crawler4j的爬虫添加URL

我正在处理crawler4j。 http://code.google.com/p/crawler4j/ 并简单测试抓取网站成功了。 但我想在进程中随机添加 URL。 此代码在第二次构造 CrawlCo…

A君 2024-12-10 04:32:43 0 0

在使用 SQL Server 的 C# 编程中使用多线程在一小时内可以抓取多少页面?

我有一个关于抓取电子商务网站的项目,该网站有近 15,000 个产品,我无法数清,但有近 25,000 个页面。我使用多线程在 C# 中为此编写了一个程序,总共…

旧时浪漫 2024-12-09 17:44:39 1 0

编程扫描我的网站并查找链接到外部网站的所有页面

Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…

一萌ing 2024-12-09 17:34:45 0 0

Modernizr 和/或 yepnope 可以对机器人和蜘蛛做出反应吗?

我在页面上运行一些 JS,弹出一个模式本地化选择框。我想防止机器人/爬虫发生这种情况。有没有办法使用 Modernizr 和/或 yepnope.js 来做到这一点?…

旧人哭 2024-12-09 13:13:23 1 0

具有正则表达式匹配的多级网络蜘蛛?

我需要一个网络蜘蛛来查找带有正则表达式的某些链接。 蜘蛛将访问网站列表,查找与正则表达式模式列表匹配的链接,访问这些匹配的链接并重复直到配置…

ぃ双果 2024-12-09 07:28:05 0 0

网络挖掘、抓取或爬行?我应该使用什么工具/库?

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

情栀口红 2024-12-09 02:20:58 1 0

以编程方式从社交网络中抓取用户文章

是否可以通过编程从 Facebook 等社交网络抓取用户信息? 我需要一些用户信息(更具体地说,发布的文章)来完成一个小型数据挖掘项目。 我想我有以下问…

红焚 2024-12-08 23:55:37 0 0

如何在 Ruby 中抓取、解析和抓取文件?

我有许多来自数据仓库的数据文件需要处理,这些文件具有以下格式: :header 1 ... :header n # remarks 1 ... # remarks n # column header 1 # colum…

鹿港小镇 2024-12-08 22:16:15 0 0

防止自定义网络爬虫被阻止

我正在使用 C# 创建一个新的网络爬虫来爬网一些特定网站。一切都很顺利。但问题是,在一些请求之后,某些网站阻止了我的抓取工具 IP 地址。我尝试在抓…

冷了相思 2024-12-08 10:42:21 1 0

将 redis nosql 与网络爬虫一起使用

我正在制作一个简单的维基百科页面爬虫,并将详细信息写入运行 redis 的远程服务器。 1 The crawler asks the server for a page that needs crawling…

独夜无伴 2024-12-08 09:15:08 1 0

如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程

如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程? 我的意思是在爬过种子列表中的所有域后不要停止。并继续对在爬行过程中找到的每个链…

睫毛溺水了 2024-12-08 08:29:51 0 0

抓取非英文网站的编码问题

我试图将网页的内容作为字符串获取,我发现这个问题解决了 如何编写一个基本的网络爬虫,它声称(并且似乎)处理编码问题,但是那里提供的代码可以工…

你曾走过我的故事 2024-12-07 21:24:26 1 0

Google 抓取、AJAX 和 HTML5

HTML5 允许我们在不刷新浏览器的情况下更新当前的 URL。我在 HTML5 之上创建了一个小型框架,它允许我透明地利用它,因此我可以使用 AJAX 执行所有请…

莫言歌 2024-12-07 16:48:11 2 0

Google 的抓取工具是否索引异步加载的元素?

我已经为网站构建了一些在页面加载后异步加载的小部件:     ...              ...                      (function(){                 var ns = doc…

合约呢 2024-12-07 13:51:42 2 0

是否可以仅使用一个线程打开到多个站点的多个连接?

更新 我已经使用了FixedThreadPool。发生的情况是每个线程为一个站点打开一个连接。我想做的是异步的事情。 向服务器发送请求 无需等待第一个请求完成…

穿越时光隧道 2024-12-07 13:18:28 1 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文