gpt4 book ai didi

python - 在Python中比较表中的文本

转载 作者:行者123 更新时间:2023-12-01 02:50:53 25 4
gpt4 key购买 nike

我想比较 python 列表中的文本。例如

Url         | text
|
www.xyz.com | " hello bha njik **bhavd bhavd** bjavd manhbd kdkndsik wkjdk"
|
www.abc.com | "bhavye jsbsdv sjbs jcsbjd adjbsd jdfhjdb jdshbjf jdsbjf"
|
www.lokj.com| "bsjgad adhuad jadshjasd kdashda kdajikd kdfsj **bhavd bhavd** "

现在我想将第一个文本与其他行进行比较,以了解文本中有多少单词相似。并逐渐进入第二行和以下行,依此类推......

我应该使用什么方法以及我应该使用什么数据结构?

最佳答案

对于 python3

正如评论中详细说明的,我们生成每个可能的对,创建集合以确保单词的唯一性,并且我们简单地计算每对的唯一常见单词的数量。如果您的文本列表结构有点不同,这可能需要进行一些调整

import itertools

my_list = ["a text a", "an other text b", "a last text c and so on"]

def simil(text_a, text_b):
# returns the number of common unique words betwene two texts
return len(set(text_a.split()).intersection(set(text_b.split())))

results = []
# for each unique combination of texts
for pair in itertools.combinations(my_list, r=2):
results.append(simil(*pair))

print(result)

旁注:根据您想要执行的操作,您可能需要查看诸如 TFIDF ( A simple tutorial ) 等文本/文档相似性算法,或许多其他算法...

关于python - 在Python中比较表中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44799034/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com