如何在进行过程中随机向crawler4j的爬虫添加URL
我正在处理crawler4j。 http://code.google.com/p/crawler4j/ 并简单测试抓取网站成功了。 但我想在进程中随机添加 URL。 此代码在第二次构造 CrawlCo…
在使用 SQL Server 的 C# 编程中使用多线程在一小时内可以抓取多少页面?
我有一个关于抓取电子商务网站的项目,该网站有近 15,000 个产品,我无法数清,但有近 25,000 个页面。我使用多线程在 C# 中为此编写了一个程序,总共…
编程扫描我的网站并查找链接到外部网站的所有页面
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
Modernizr 和/或 yepnope 可以对机器人和蜘蛛做出反应吗?
我在页面上运行一些 JS,弹出一个模式本地化选择框。我想防止机器人/爬虫发生这种情况。有没有办法使用 Modernizr 和/或 yepnope.js 来做到这一点?…
网络挖掘、抓取或爬行?我应该使用什么工具/库?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
如何在 Ruby 中抓取、解析和抓取文件?
我有许多来自数据仓库的数据文件需要处理,这些文件具有以下格式: :header 1 ... :header n # remarks 1 ... # remarks n # column header 1 # colum…
将 redis nosql 与网络爬虫一起使用
我正在制作一个简单的维基百科页面爬虫,并将详细信息写入运行 redis 的远程服务器。 1 The crawler asks the server for a page that needs crawling…
如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程
如何使 Heritrix 继续对找到但不在种子列表中的域进行爬网过程? 我的意思是在爬过种子列表中的所有域后不要停止。并继续对在爬行过程中找到的每个链…
Google 抓取、AJAX 和 HTML5
HTML5 允许我们在不刷新浏览器的情况下更新当前的 URL。我在 HTML5 之上创建了一个小型框架,它允许我透明地利用它,因此我可以使用 AJAX 执行所有请…
是否可以仅使用一个线程打开到多个站点的多个连接?
更新 我已经使用了FixedThreadPool。发生的情况是每个线程为一个站点打开一个连接。我想做的是异步的事情。 向服务器发送请求 无需等待第一个请求完成…