gpt4 book ai didi

python - 使用 Python Faker 包的不同假数据的最大限制

转载 作者:太空狗 更新时间:2023-10-30 01:25:59 26 4
gpt4 key购买 nike

我使用 Python Faker 来生成假数据。但我需要知道使用 faker(例如:fake.name() )可以生成的不同假数据(例如:假名)的最大数量是多少。

我生成了 100,000 个假名,但得到的不同名称不到 76,000 个。我需要知道最大限制,这样我才能知道使用这个包生成数据我们可以扩展多少。

我需要生成庞大的数据集。我也想知道 Php faker, perl faker 对于不同的环境都是一样的吗?

其他用于生成庞大数据集的包将受到高度赞赏。

最佳答案

我遇到了同样的问题并进行了更多调查。

en_US 提供程序中,大约有 1000 个姓氏和 750 个名字,用于大约 750000 个独特的组合。如果您随机选择名字和姓氏,您可能会得到重复的名字。但实际上,现实世界就是这样运作的,那里有很多 John Smiths 和 Robert Doyles。

en 配置文件中有 7203 个名字和 473 个姓氏,可以提供一些帮助。 Faker 选择名字和姓氏的组合,这意味着大约有 7203 * 473 = 3407019。

但是,您仍有可能得到重复项。

我通过在名称中添加数字来解决这个问题。

I need to generate huge dataset.

请记住,在现实中,任何庞大的姓名数据集都会有重复项。我处理大型数据集(超过 100 万个名字),我们看到大量重复的名字和姓氏。

如果您阅读了 faker 包代码,您可能会弄清楚如何修改它以便获得所有 3M 不同的名称。

关于python - 使用 Python Faker 包的不同假数据的最大限制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47299415/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com