gpt4 book ai didi

java - 如何产生海量数据?

转载 作者:可可西里 更新时间:2023-11-01 14:13:49 24 4
gpt4 key购买 nike

我正在使用 nutch 和 hadoop 进行一些测试,我需要大量数据。我想从 20GB 开始,增加到 100GB、500GB,最终达到 1-2TB。

问题是我没有这么多的数据,所以我在想办法制作它。

数据本身可以是任何类型的。一个想法是获取一组初始数据并复制它。但它还不够好,因为需要彼此不同的文件(忽略相同的文件)。

另一个想法是编写一个程序来创建包含虚拟数据的文件。

还有其他想法吗?

最佳答案

对于统计 StackExchange 站点来说,这可能是一个更好的问题(例如,参见 my question on best practices for generating synthetic data)。

但是,如果您对数据属性和操作和使用数据的基础架构不那么感兴趣,那么您可以忽略统计站点。特别是,如果你不关注数据的统计方面,而只是想要“大数据”,那么我们可以关注如何产生一大堆数据。

我可以提供几个答案:

  1. 如果您只对随机数字数据感兴趣,可以从您最喜欢的 Mersenne Twister 实现中生成一个大流。还有/dev/random (参见 this Wikipedia entry for more info )。我更喜欢已知的随机数生成器,因为其他任何人都可以随意复制结果。

  2. 对于结构化数据,您可以考虑将随机数映射到索引,并创建一个将索引映射到字符串、数字等的表,例如在生成包含姓名、地址的数据库时可能遇到的情况等。如果您有足够大的表或足够丰富的映射目标,则可以降低冲突的风险(例如,相同的名称),尽管您可能希望发生一些冲突,因为这些冲突在现实中也会发生。

  3. 请记住,对于任何生成方法,您都不需要在开始工作之前存储整个数据集。只要记录状态(例如 RNG 的状态),就可以从中断的地方继续。

  4. 对于文本数据,您可以查看简单的随机字符串生成器。您可以针对不同长度或不同特征的字符串的概率创建自己的估计。这同样适用于句子、段落、文档等 - 只需决定您想要模拟的属性,创建一个“空白”对象,然后用文本填充它。

关于java - 如何产生海量数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8668175/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com