传出负载均衡器

发布于 2024-08-13 06:29:31 字数 419 浏览 4 评论 0原文

我有一个用 python 编写的大型线程提要检索脚本。

我的问题是，如何对传出请求进行负载平衡，以免过于频繁地访问任何一台主机？

这对于 feedburner 来说是一个大问题，因为很大一部分网站通过 feedburner 代理其 RSS，并且使问题进一步复杂化的是，许多网站将其域上的子域别名为 feedburner，以掩盖他们正在使用它的事实（例如“mysite”）将其 RSS url 设置为 feeds.mysite.com/mysite，其中 feeds.mysite.com 跳转到 feedburner）。有时它会阻止我一段时间并重定向到他们的 "自动请求”错误页面。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

月下凄凉 2024-08-20 06:29:31

您可能应该执行一次性请求（每周/每月，无论合适）。对于每个提要并遵循重定向以获得“真实”地址。无论当时的限制情况如何，您都应该能够解析所有提要，保存该数据，然后对添加到列表中的每个新提要执行一次。您可以查看urllib的geturl()，因为它从您的URL返回最终的URL放入其中。当您对源执行 ping 操作时，请务必使用原始源（保留“真实”只是为了负载平衡），以确保在用户移动了源或类似情况时它能够正确重定向。

完成此操作后，您可以简单地设计一种加载机制，例如给定域每小时仅发送 X 个请求，遍历每个 feed 并跳过主机已达到限制的 feed。如果 feedburner 将其限制公开（不太可能），您可以将其用于 X，但否则您只需估计它并粗略估计您知道低于限制。然而，了解谷歌，他们的限制可能会衡量模式，并且没有特定的硬限制。

编辑：添加评论中的建议。

回复收藏 0 原文