当前位置：文江博客话题详情

比较多处理与扭曲的问题

发布于 2024-09-12 01:42:00 字数 571 浏览 7 评论 0原文

遇到了我要解析网站的情况。每个站点都必须有自己的“解析器”，并且可能有自己的处理cookies/等的方式。

我正在努力思考哪个是更好的选择。

选择一：我可以创建一个多处理函数，其中 (masterspawn) 应用程序获取输入 url，然后它跨越 masterspawn 应用程序内的进程/函数，然后处理页面/URL 的所有设置/获取/解析。

这种方法将运行一个主应用程序，然后它依次创建内部函数的多个实例。应该很快，是/否？

选择二：我可以创建一个“Twisted”类型的服务器，它基本上会做与选择 I 相同的事情。不同之处在于使用“Twisted”也会带来一些开销。我正在尝试评估 Twisted，将其视为“服务器”，但我不需要它来执行 url 的获取。

选择三：我可以使用 scrapy。我倾向于不走这条路，因为我不想/不需要使用 scrapy 似乎具有的开销。正如我所说，每个目标 URL 都需要自己的解析函数，以及处理 cookie...

我的目标是基本上将“架构”解决方案分布在多个盒子中，其中每个客户端盒子与主服务器连接分配要解析的 url。

感谢对此的任何评论..-

汤姆

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

完美的未来在梦里 2024-09-19 01:42:00

这个问题有两个维度：并发和分布。

并发：Twisted 或多处理将同时处理获取/解析作业。我不确定你的“扭曲的开销”的前提来自哪里。相反，多处理路径会产生更多的开销，因为必须生成（相对较重的）操作系统进程。 Twisteds 处理并发的方式要轻量得多。

分发：多重处理不会将您的获取/解析作业分发到不同的盒子。 Twisted 可以做到这一点，例如。使用 AMP 协议构建设施。

我无法评论 scrapy，因为我从未使用过它。

回复收藏 0 原文

雨后咖啡店 2024-09-19 01:42:00

对于这个特定的问题，我会选择多重处理 - 它易于使用且易于理解。您并不特别需要扭曲，所以为什么要承担额外的复杂性。

您可能需要考虑的另一种选择：使用消息队列。让主服务器将 URL 放入队列中（例如 beanstalkd、resque, 0mq ）并让工作进程获取 URL 并进行处理。您将同时获得并发性和分发性：您可以在任意数量的机器上运行工作程序。

回复收藏 0 原文

~没有更多了~

关于作者

相对绾红妆

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

比较多处理与扭曲的问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

比较多处理与扭曲的问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。