gpt4 book ai didi

python - 比较两条信息以找出相似之处

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:51:37 25 4
gpt4 key购买 nike

我有以下困境。我已经将信息存储在数据库中,我将添加到其中。我有以下字段:

Title
Location
Description

我想避免将相同的内容重新添加到数据库中。但是,当前设置似乎正在发生的事情是我检查它们是否完全相同但有时可能会出现一个字符,并且它将接受它作为两个不同的值。

是否有可能建立某种“软糖因素”,以允许两者之间存在非常微小的差异。我正在寻找更一般的技术,但如果它有所作为,我正在用 python 编码。

最佳答案

这是典型的“脏数据”问题。目标是在您的数据库中只包含干净的数据,并识别重复数据。

该技术取决于您的数据,它是否可以轻松清理或是否需要一些编程逻辑。例如,姓氏“van Rossum”是否与“Vanrossum”相同,或者“Håstad”是否与“Hasted”相同?最后的实时股价是真实的,还是应该丢弃的峰值?

除了应用于每个领域的规则列表之外,可能没有简单的答案。可能没有一个“软糖因素”可以修复您的所有数据。

您最好的方法应该与标题、位置和描述的已知“良好”值相关。也许您的 Locations 定义明确并且您可以轻松检测到不正确的位置 - 然后您需要决定正确的位置应该是什么。

常见的做法包括“剔除”不符合规则的数据,以便人类做出决定,或者简单地将其标记为脏数据,以便人类可以在搜索结果中出现时应用心理软糖因素。

关于python - 比较两条信息以找出相似之处,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18362863/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com