ASP.NET 网页抓取超时问题
我正在尝试实现一个网络抓取爬虫作为我的 ASP.NET MVC 项目的一部分。它使用 Html Agility Pack 处理从不同 URL 收集的大数据。问题是,当我想实际运行该功能时,一分钟后我从远程服务器收到“连接已重置”。当我在本地运行它时,我得到了更好的结果。我可以访问远程 IIS。有什么建议来解决这个问题和/或任何替代方案吗?
I'm trying to implement a web scraping crawler as a part of my ASP.NET MVC project. It works with large data gathered from different URLS using Html Agility Pack. The problem is when I want to actually run the function I get "The connection was reset" from remote server after a minute. I'm getting better result when I run it locally. I have access to remote IIS. Any suggestion to solve this problem and/or any alternatives?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
如果 ASP.NET 中有一个长时间运行的进程,最好让它在不同的线程上运行。
请参阅此和此 - 相关问题和这篇 MSDN 文章。
If you have a long running process in ASP.NET, it is best to let it run on a different thread.
See this and this - related questions and this MSDN article.
连接和网络问题可能会导致此类问题。为了避免阻止抓取其他 URL,您可以将工作并行化到单独的线程中。
Connection and network problems could result in such problems. To avoid blocking scraping of other urls you could parallelize the work into separate threads.