当前位置：文江博客话题详情

用于大规模分析的 Python 策略（即时或延迟）

发布于 2024-12-07 11:54:50 字数 427 浏览 5 评论 0原文

要分析大量网站或金融数据并提取参数数据，最佳策略是什么？

我将以下策略分类为“即时”或“延迟”。哪个最好？

即时：即时处理数据并将参数数据存储到数据库中
延迟：将所有源数据以 ASCII 形式存储到文件系统中并进行后期处理稍后，或者使用处理数据守护进程
延迟：将所有页面作为 BLOB 存储在数据库中以便稍后进行后处理，或者使用处理数据守护进程

数字 1 是最简单的，特别是如果您只有一台服务器。 #2 或 #3 使用单个服务器是否会更高效，或者您是否只看到多个服务器的威力？

是否有任何 python 项目已经适合这种分析？

编辑：最好，我的意思是最快的执行，以防止用户等待，以易于编程为次要

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

老旧海报 2024-12-14 11:54:50

我会在一台或多台机器上使用 celery ，并采用“即时”策略。您可以有一个获取数据的聚合任务，以及一个分析数据并将其存储在数据库中的处理任务。这是一种高度可扩展的方法，您可以根据您的计算能力对其进行调整。

从某种意义上说，“即时”策略更有效，因为您可以一次性处理数据。另外两个涉及额外的步骤，从保存数据的位置重新检索数据并在之后进行处理。

当然，一切都取决于数据的性质以及处理数据的方式。如果处理阶段慢于聚合，则“即时”策略将挂起并等待处理完成。但同样，您可以将 celery 配置为异步，并在有数据尚未处理时继续聚合。

回复收藏 0 原文

紫南 2024-12-14 11:54:50

第一：“最快执行以防止用户等待”意味着某种延迟处理。一旦您决定推迟处理（这样用户就看不到它），平面文件和数据库之间的选择基本上与最终用户等待时间无关。

第二：数据库速度慢。平面文件速度很快。然而，由于您将使用 celery 并避免最终用户等待时间，因此平面文件和数据库之间的区别变得无关紧要。

将所有源数据以 ASCII 形式存储到文件系统中，并稍后进行后期处理，或使用处理数据守护进程

这是最快的。 Celery 加载平面文件。

回复收藏 0 原文

~没有更多了~

关于作者

旧时光的容颜

暂无简介

文章

28 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

用于大规模分析的 Python 策略（即时或延迟）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者