当前位置：文江博客话题详情

海量数据如何产生？

发布于 2024-12-23 11:04:51 字数 240 浏览 5 评论 0原文

我正在使用 nutch 和 hadoop 进行一些测试，我需要大量数据。我想从 20GB 开始，逐渐增加到 100GB、500GB，最终达到 1-2TB。

问题是我没有这么多数据，所以我正在考虑如何生成它。

数据本身可以是任何类型。一个想法是获取一组初始数据并复制它。但它还不够好，因为需要彼此不同的文件（相同的文件将被忽略）。

另一个想法是编写一个程序来创建带有虚拟数据的文件。

还有其他想法吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

玩套路吗 2024-12-30 11:04:51

对于统计 StackExchange 站点来说，这可能是一个更好的问题（例如，请参见我关于生成合成数据的最佳实践的问题）。

但是，如果您对数据属性不那么感兴趣，而对操作和处理数据的基础设施更感兴趣，那么您可以忽略统计站点。特别是，如果你不关注数据的统计方面，而只是想要“大数据”，那么我们可以关注如何生成一大堆数据。

我可以提供几个答案：

如果您只对随机数值数据感兴趣，请从您最喜欢的 Mersenne Twister 实现中生成一个大流。还有 /dev/random（请参阅此维基百科条目了解更多信息）。我更喜欢已知的随机数生成器，因为其他任何人都可以令人厌烦地重现结果。
对于结构化数据，您可以考虑将随机数映射到索引，并创建一个将索引映射到字符串、数字等的表，例如在生成名称、地址等数据库时可能会遇到的情况。如果您有足够大的表或足够丰富的映射目标，您可以降低冲突的风险（例如相同的名称），尽管您可能希望发生一些冲突，因为这些冲突在现实中也会发生。
请记住，使用任何生成方法，您都不需要在开始工作之前存储整个数据集。只要您记录状态（例如 RNG 的状态），您就可以从上次停下的地方继续。
对于文本数据，您可以查看简单的随机字符串生成器。您可以对不同长度或不同特征的字符串的概率创建自己的估计。同样的情况也适用于句子、段落、文档等 - 只需决定要模拟哪些属性，创建一个“空白”对象，然后用文本填充它。