当前位置：文江博客话题详情

hadoop analytics

Hadoop：仅使用 2 台机器的缺点？

发布于 2024-08-21 08:28:08 字数 259 浏览 2 评论 0 原文

我想要对大量数据进行日志解析并收集分析信息。然而，所有数据都来自外部来源，我只有两台机器来存储 - 一台作为备份/复制。

我正在尝试使用 Hadoop、Lucene...来实现这一目标。但是，所有培训文档都提到 Hadoop 对于分布式处理、多节点很有用。我的设置不适合该架构。

仅使用 2 台机器使用 Hadoop 是否有任何开销？如果 Hadoop 不是一个好的选择，还有其他选择吗？我们研究了 Splunk，我们喜欢它，但它对我们来说买起来很贵。我们只想建立自己的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

醉生梦死 2024-08-28 08:28:08

Hadoop应该用于分布式批处理问题。

5-common-questions-about-hadoop

日志文件分析是 Hadoop 更常见的用途之一，也是 Facebook 使用它执行的任务之一。

如果您有两台机器，那么根据定义您就有一个多节点集群。如果需要，您可以在单台计算机上使用 Hadoop，但随着添加更多节点，处理相同数据量所需的时间会减少。

你说你有海量数据？这些是需要理解的重要数字。就我个人而言，当我认为数据量很大时，我认为在 100 TB 以上范围内。如果是这种情况，您可能需要两台以上的机器，特别是如果您想通过 HDFS 使用复制。

您想要收集的分析信息？您是否确定可以使用 MapReduce 方法来回答这些问题？

如果您的硬件资源有限，您可以考虑在 Amazon EC2 上使用 Hadoop。以下是一些可帮助您入门的链接：

回复收藏 0 原文

~没有更多了~

关于作者

自演自醉

暂无简介

0 文章

0 评论

23 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

Hadoop：仅使用 2 台机器的缺点？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签