当前位置：文江博客话题详情

C# Windows.forms 中的网络蜘蛛/爬虫

发布于 2024-11-25 12:47:51 字数 510 浏览 0 评论 0原文

我用 VC# 创建了一个网络爬虫。爬网程序通过暴力破解所有可能的 .nl 地址（以 http://aa.nl< 开头）来索引 .nl 站点中的某些信息。 /a>（理论上）http://zzzzzzzzzzzzzzzzzzzz.nl。

它工作得很好，只是需要非常长的时间才能遍历两个字母的域 - aa、ab ... zz。我计算了以这种方式遍历所有领域需要多长时间，我得到了大约一千年。

我尝试通过线程来加速这一过程，但同时运行 1300 个线程，WebClient 不断失败，导致生成的数据文件太不准确而无法使用。

除了 Win7 上的 5Mb/s 互联网连接、E6300 Core2duo 和 2GB 533@667mhz RAM 之外，我无法访问其他任何东西。

有人知道该怎么做才能使这项工作成功吗？任何想法都可以。谢谢

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

趁微风不噪 2024-12-02 12:47:51

组合爆炸使得这不可能实现（除非你至少可以等待几个月）。我会尝试联系 SIDN，他是 .nl TLD 的权威机构，并向他们询问列表。

回复收藏 0 原文

ら栖息 2024-12-02 12:47:51

IMO 这样的网络爬虫实现是不合适的

一次爬网需要执行的 ping 次数约为 10²⁹
假设每个 ping 需要 200 毫秒
处理时间 100 毫秒

总时间估计 3*10⁴*10²⁹ 毫秒 ~ 3*10²³ 年。如果我错了，请纠正我。

如果您想利用线程，则每个线程都需要有一个专用的核心。每个线程至少占用 1+ MB 的内存。

线程在这里对您没有帮助，理论上您将能够将时间减少到 ~ 3*10²⁰ 年

您得到的异常可能是线程的结果同步问题。

回复收藏 0 原文

情魔剑神 2024-12-02 12:47:51

默认情况下，.Net 中的 HTTP 支持的最大并发连接数限制约为 8 个（无论如何都在这个数字附近）

如果您创建更多 HTTP 请求，其中许多请求将被迫等待可用连接，因此会花费时间早在他们让一个有效的 URI 看起来无效之前就已经出局了。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

赏烟花じ飞满天

文章 0 评论 0

独守阴晴ぅ圆缺

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文