我应该如何配置 Amazon EC2 来执行可并行的数据密集型计算？

发布于 2024-09-14 15:23:43 字数 293 浏览 1 评论 0原文

我有一个高度可并行化的计算密集型项目：基本上，我有一个需要在大表（Postgresql）中的每个观察上运行的函数。该函数本身是一个存储的 python 过程。

Amazon EC2 似乎非常适合该项目。

我的问题是：我应该制作一个已包含数据库的自定义映像 (AMI) 吗？这似乎具有最大限度地减少数据传输并使并行化变得简单的优点：每个图像都可以获得一些指定的索引块来计算，例如，图像 1 获得 1:100，图像 2 101:200 等。实例（大多数操作指南建议的）似乎对我的应用程序没有意义，但我对此很陌生，所以我不确定我的直觉是否正确。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

断肠人 2024-09-21 15:23:43

您肯定希望将数据和服务器实例分开，以便在完成实例后保留数据中的更改。您最好的选择是从具有操作系统和操作系统的基本映像开始。选择您想要使用的数据库平台，对其进行自定义以满足您的需求，然后安装一个或多个包含您的数据的 EBS 卷。完成自定义后，您可能还想创建自己的服务器实例，除非您正在做的事情相当简单。

一些有用的链接：

http://docs. amazonwebservices.com/AmazonEC2/gsg/2006-10-01/creating-an-image.html
http://developer.amazonwebservices.com/connect/entry。 jspa?categoryID=100&externalID=1663

（您说的是 postgres，但这个 mysql 教程涵盖了您需要记住的相同基本概念）

回复收藏 0 原文