当前位置：文江博客话题详情

如何使用 IE/.Net/C# 进行真正的多线程 Web 挖掘？

发布于 2024-09-14 16:54:33 字数 135 浏览 6 评论 0原文

我想使用IE浏览器从网络上挖掘大量数据。然而，通过 WatiN 生成大量 IE 实例会使系统崩溃。有更好的方法吗？请注意，我不能简单地执行 WebRequests - 我确实需要浏览器，因为必须与网站上 JS 驱动的行为进行交互。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

仅此而已 2024-09-21 16:54:33

我正在用 WatiN 挖掘很多页面。实际上此时已经30+了。当然，这需要大量资源 - 大约 2.5 GB RAM，但使用 WebRequest 几乎不可能做到同样的事情。我无法想象自己会在合理的时间内做这样的事情。使用 WatiN 需要几个小时。

我不知道它是否对你有帮助，但我正在使用网络浏览器控件来做到这一点。每个实例都是一个单独的进程。但是，我认为对您来说更重要的是，我曾经尝试通过在单个进程中完成所有操作来减少使用的内存量。可以创建单独的 AppDomain 而不是进程，并强制它们使用相同的 dll（尤其是 Microsoft.mshtml.dll），而不是为每个新应用程序域单独加载相同的 dll。我现在不记得该怎么做，但用谷歌搜索并不难。我记得一切都运行良好，并且 RAM 的使用量显着减少，所以我认为值得尝试。

回复收藏 0 原文

べ繥欢鉨o。 2024-09-21 16:54:33

在 .NET 应用程序中启动 WebBrowser 控件（无论如何都是 IE）的多个实例以异步方式处理数据挖掘作业怎么样？

如果性能是一个问题 - 拆分作业并将其推送到云端也可能有所帮助。

回复收藏 0 原文

趁年轻赶紧闹 2024-09-21 16:54:33

最好的方法是为每个 Web 浏览器实例实际创建一个进程，这是因为 Web 浏览器不是托管代码，它的 COM，并且在某些情况下无法在托管代码中处理非托管异常，应用程序肯定会崩溃。

更好的办法是创建一个进程主机来生成多个进程，并且如果需要，您可以使用命名管道或套接字或 WCF 在每个进程之间进行通信。

最好的办法是创建一个小型 SQL 嵌入式数据库，您可以在其中对作业进行排队，挖掘过程可以获取新请求，并将请求发布回数据库，并且该数据库可用于同步所有内容。

回复收藏 0 原文

枯寂 2024-09-21 16:54:33

我有一个项目，我在长期的基础上收集了大约 4500 万个请求（包含表单提交）。我一直在与大约 20 个并发客户端进行斗争，而我的管道成为了瓶颈。

在尝试编写自己的 WebClient、WaTiN/WaTiR 后，我使用了 Selinium Remote-Control使用 Microsoft 的 UI 自动化 API。

Selenium RC 让您选择浏览器。我用的是火狐浏览器。设置初始抓取脚本需要大约一个小时的实验和调整。 Selenium 比我自己编写代码要快得多，而且只需很少的投资就更健壮。很棒的工具。

为了扩展该过程，我尝试了几种不同的方法，但最终最有效的方法是将每个 SRC 实例固定在其自己的精简虚拟机中，然后生成与工作站有 RAM 支持的尽可能多的实例。当我获得超过 10 个实例时，在主机（而不是虚拟机）中本地运行的同等数量的 SRC 实例不可避免地会停止。这在抓取运行之前需要更多的开销和设置时间，但它会不间断地持续运行数天。

另一个考虑因素 - 调低您的 Firefox 首选项，以便不加载主页，关闭所有非必要的内容（欺骗检查、cookie（如果您的抓取、图像、广告拦截和闪存拦截等不需要的话）。

回复收藏 0 原文

~没有更多了~