Hadoop、硬件和生物信息学

发布于 2024-10-18 05:58:39 字数 678 浏览 5 评论 0原文

我们即将购买新硬件来运行我们的分析，并想知道我们是否做出了正确的决定。

设置：
我们是一个生物信息学实验室，将处理 DNA 测序数据。我们这个领域面临的最大问题是数据量，而不是计算量。单个实验很快就会达到 10-100 Gb，我们通常会同时运行不同的实验。显然，mapreduce 方法很有趣（另请参见 http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html），但并非我们所有的软件都使用该范例。此外，某些软件使用 ascii 文件作为输入/输出，而其他软件则使用二进制文件。

我们可能会购买什么：
我们可能购买的机器是具有 32 个内核和 192Gb RAM 的服务器，连接到 NAS 存储（>20Tb）。对于我们的许多（非 MapReduce）应用程序来说，这似乎是一个非常有趣的设置，但是这样的配置会阻止我们以有意义的方式实现 hadoop/mapreduce/hdfs 吗？

非常感谢，
一月

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暮光沉寂 2024-10-25 05:58:39

你有一个有趣的配置。您使用的 NAS 存储的磁盘 IO 是多少？

根据以下因素做出决定：
MapReduce范式用于解决处理大量数据的问题。基本上，RAM 比磁盘存储更昂贵。您无法将所有数据保存在 RAM 中。磁盘存储允许您以更便宜的成本存储大量数据。但是，从磁盘读取数据的速度不是很高。 MapReduce是如何解决这个问题的呢？ MapReduce通过将数据分布在多台机器上来解决这个问题。现在，并行读取数据的速度比使用单个存储磁盘的速度要快。假设磁盘 IO 速度为 100 Mbps。使用 100 台机器，您可以以 100*100 Mbps = 10Gbps 的速度读取数据。

通常处理器速度不是瓶颈。相反，磁盘 IO 是处理大量数据时的大瓶颈。

我有一种感觉，效率可能不太高。

回复收藏 0 原文

~没有更多了~