gpt4 book ai didi

python - 使用 python Dedupe 包检查单个记录

转载 作者:行者123 更新时间:2023-12-05 07:00:21 24 4
gpt4 key购买 nike

我正在使用 Dedupe python 包来检查传入记录的重复项。我已经训练了大约。 CSV 文件中的 500000 条记录。使用 Dedupe 包,我将 500000 条记录聚类到不同的集群中。我试图使用 settings_file 完成培训,为新记录(代码中的 data)进行重复数据删除。我在下面分享了一个代码片段。

import dedupe
from unidecode import unidecode
import os

deduper=None
if os.path.exists(settings_file):
with open(settings_file, 'rb') as sf :
deduper = dedupe.StaticDedupe(sf)

clustered_dupes = deduper.match(data, 0)

数据,这是一条新记录,我必须检查它是否有重复项。 数据看起来像

{1:{'SequenceID': 6855406, 'ApplicationID': 7065902, 'CustomerID': 6153222, 'Name': 'X', 'col1': '-42332423', 'col2': '0', 'col3': '0', 'col4': '0', 'col5': '24G0859681', 'col6': '0', 'col7': 'xyz12345', 'col8': 'xyz', 'col9': '1234', 'col10': 'xyz10'}}

这会引发错误。

No records have been blocked together. Is the data you are trying to match like the data you trained on?

如何使用此聚类数据检查新记录是否重复?是否可以像我们对任何 ML 模型所做的那样做?我调查了多个来源,但没有找到解决此问题的方法。

大多数来源都在谈论训练,而不是在谈论我如何使用聚类数据来检查单个记录。

还有别的出路吗

我提到的一些链接:link1 link2 link3

感谢任何帮助。

最佳答案

您需要将最初训练的数据与新记录一起作为输入传递给基于预训练设置的集群

关于python - 使用 python Dedupe 包检查单个记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64151444/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com