gpt4 book ai didi

python - 使用python重复数据删除库错误进行模糊重复检查

转载 作者:行者123 更新时间:2023-12-04 10:43:54 24 4
gpt4 key购买 nike

我正在尝试使用 python 重复数据删除库对我的模拟数据执行模糊重复检查,但我不断收到此错误:

{'Vendor': {0: 'ABC', 1: 'ABC', 2: 'TIM'},
'Doc Date': {0: '5/12/2019', 1: '5/13/2019', 2: '4/15/2019'},
'Invoice Date': {0: '5/10/2019', 1: '5/10/2019', 2: '4/10/2019'},
'Invoice Ref Num': {0: 'ABCDE56.', 1: 'ABCDE56', 2: 'RTET5SDF'},
'Invoice Amount': {0: '56', 1: '56', 2: '100'}}

IndexError:无法从空序列中进行选择

这是我正在使用的代码:
import pandas as pd 
import pandas_dedupe

df = pd.read_csv("duptest.csv") df.columns

df = pandas_dedupe.dedupe_dataframe(df,['Vendor','Invoice Ref Num','Invoice Amount'])

知道我做错了什么吗?谢谢。

最佳答案

pandas-dedupe 创建您需要标记的观察样本。
默认观察量等于数据框的 30%。
在您的情况下,您的数据框中的示例太少而无法开始主动学习。
如果您 sample_size=1如下:

df = pandas_dedupe.dedupe_dataframe(df,['Vendor','Invoice Ref Num','Invoice Amount'], sample_size=1)
您将能够对您的数据进行重复数据删除:)

关于python - 使用python重复数据删除库错误进行模糊重复检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59804953/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com