gpt4 book ai didi

Python编程从名称列表中查找相似的名称

转载 作者:行者123 更新时间:2023-12-05 04:31:18 33 4
gpt4 key购买 nike

我使用的公司名称数据集可能包含不相同的重复项。

该列表可能包含:公司 A 以及公司 A 或公司 A

是否有任何使用 NLP 的 python 脚本可以从数据集中找到相似的名称。

提前致谢

最佳答案

您可以使用 spacy获得 2 个文本之间的相似性。

import spacy

nlp = spacy.load("en_core_web_md") # make sure to use larger package!
doc1 = nlp("Coca-Cola")
doc2 = nlp("Pepsi")

doc3 = nlp("Company Coca-Cola")
doc4 = nlp("Company Pepsi-Cola")


print(doc1, "<->", doc2, doc1.similarity(doc2))
print(doc3, "<->", doc4, doc3.similarity(doc4))

有以下相似之处

Coca-Cola <-> Pepsi 0.6684898494102074
Company Coca-Cola <-> Company Pepsi-Cola 0.934960639746236

关于Python编程从名称列表中查找相似的名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71864019/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com