gpt4 book ai didi

python-3.x - 我有一个名字列表,其中一些是假的,我需要使用 NLP 和 Python 3.1 来保留真名并扔掉假名

转载 作者:行者123 更新时间:2023-12-04 01:11:31 25 4
gpt4 key购买 nike

我不知道从哪里开始。我从来没有做过任何 NLP,只用 Python 3.1 编程,我必须使用它。我在看网站 http://www.linkedin.com我必须收集所有公开资料,其中一些有非常假的名字,例如“aaaaaa k dudujjek”,有人告诉我可以使用 NLP 找到真实姓名,我该从哪里开始呢?

最佳答案

这是一个很难解决的问题,首先要获取有效的名字和姓氏列表。

您正在评估的名称集有多大,它们来自哪里?这些都是您需要考虑的重要事项。例如,如果您正在评估一小组“美国”姓名,则您的有效姓名列表将与日本或印度姓名列表大不相同。

您抓取 LinkedIn 的想法是正确的,但您发现虚假个人资料/姓名缺陷是正确的。一个更好的网站可能类似于 IMDB(可能是抓取名称 by iterating over different birth years),或者维基百科的列表 most popular given namesmost common surnames .

归根结底,这是一个准确率与召回率的问题:为了少漏掉假货,你不可避免地会丢掉一些真名。如果你放宽限制,你会得到更多的假货,但你也会扔出更少的真名。

关于python-3.x - 我有一个名字列表,其中一些是假的,我需要使用 NLP 和 Python 3.1 来保留真名并扔掉假名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2399355/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com