第 2 页 - web-crawler

投稿关注

web-crawler

文章 0 浏览 4

如何在进行过程中随机向crawler4j的爬虫添加URL

我正在处理crawler4j。 http://code.google.com/p/crawler4j/ 并简单测试抓取网站成功了。但我想在进程中随机添加 URL。此代码在第二次构造 CrawlCo…

A君 2024-12-10 04:32:43 0 0

在使用 SQL Server 的 C# 编程中使用多线程在一小时内可以抓取多少页面？

我有一个关于抓取电子商务网站的项目，该网站有近 15,000 个产品，我无法数清，但有近 25,000 个页面。我使用多线程在 C# 中为此编写了一个程序，总共…

旧时浪漫 2024-12-09 17:44:39 1 0

编程扫描我的网站并查找链接到外部网站的所有页面

Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…

一萌ing 2024-12-09 17:34:45 0 0

Modernizr 和/或 yepnope 可以对机器人和蜘蛛做出反应吗？

我在页面上运行一些 JS，弹出一个模式本地化选择框。我想防止机器人/爬虫发生这种情况。有没有办法使用 Modernizr 和/或 yepnope.js 来做到这一点？…

旧人哭 2024-12-09 13:13:23 1 0

具有正则表达式匹配的多级网络蜘蛛？

我需要一个网络蜘蛛来查找带有正则表达式的某些链接。蜘蛛将访问网站列表，查找与正则表达式模式列表匹配的链接，访问这些匹配的链接并重复直到配置…

ぃ双果 2024-12-09 07:28:05 0 0

网络挖掘、抓取或爬行？我应该使用什么工具/库？

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

情栀口红 2024-12-09 02:20:58 1 0

以编程方式从社交网络中抓取用户文章

是否可以通过编程从 Facebook 等社交网络抓取用户信息？我需要一些用户信息（更具体地说，发布的文章）来完成一个小型数据挖掘项目。我想我有以下问…

红焚 2024-12-08 23:55:37 0 0

如何在 Ruby 中抓取、解析和抓取文件？

我有许多来自数据仓库的数据文件需要处理，这些文件具有以下格式： :header 1 ... :header n # remarks 1 ... # remarks n # column header 1 # colum…

鹿港小镇 2024-12-08 22:16:15 0 0

防止自定义网络爬虫被阻止

我正在使用 C# 创建一个新的网络爬虫来爬网一些特定网站。一切都很顺利。但问题是，在一些请求之后，某些网站阻止了我的抓取工具 IP 地址。我尝试在抓…

冷了相思 2024-12-08 10:42:21 1 0

将 redis nosql 与网络爬虫一起使用

我正在制作一个简单的维基百科页面爬虫，并将详细信息写入运行 redis 的远程服务器。 1 The crawler asks the server for a page that needs crawling…

独夜无伴 2024-12-08 09:15:08 1 0

如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程

如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程？我的意思是在爬过种子列表中的所有域后不要停止。并继续对在爬行过程中找到的每个链…

睫毛溺水了 2024-12-08 08:29:51 0 0

抓取非英文网站的编码问题

我试图将网页的内容作为字符串获取，我发现这个问题解决了如何编写一个基本的网络爬虫，它声称（并且似乎）处理编码问题，但是那里提供的代码可以工…

你曾走过我的故事 2024-12-07 21:24:26 1 0

Google 抓取、AJAX 和 HTML5

HTML5 允许我们在不刷新浏览器的情况下更新当前的 URL。我在 HTML5 之上创建了一个小型框架，它允许我透明地利用它，因此我可以使用 AJAX 执行所有请…

莫言歌 2024-12-07 16:48:11 2 0

Google 的抓取工具是否索引异步加载的元素？

我已经为网站构建了一些在页面加载后异步加载的小部件： ... ... (function(){ var ns = doc…

合约呢 2024-12-07 13:51:42 2 0

是否可以仅使用一个线程打开到多个站点的多个连接？

更新我已经使用了FixedThreadPool。发生的情况是每个线程为一个站点打开一个连接。我想做的是异步的事情。向服务器发送请求无需等待第一个请求完成…

穿越时光隧道 2024-12-07 13:18:28 1 0

共 44 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客

web-crawler

如何在进行过程中随机向crawler4j的爬虫添加URL

在使用 SQL Server 的 C# 编程中使用多线程在一小时内可以抓取多少页面？

编程扫描我的网站并查找链接到外部网站的所有页面

Modernizr 和/或 yepnope 可以对机器人和蜘蛛做出反应吗？

具有正则表达式匹配的多级网络蜘蛛？

网络挖掘、抓取或爬行？我应该使用什么工具/库？

以编程方式从社交网络中抓取用户文章

如何在 Ruby 中抓取、解析和抓取文件？

防止自定义网络爬虫被阻止

将 redis nosql 与网络爬虫一起使用

如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程

抓取非英文网站的编码问题

Google 抓取、AJAX 和 HTML5

Google 的抓取工具是否索引异步加载的元素？

是否可以仅使用一个线程打开到多个站点的多个连接？

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接