gpt4 book ai didi

python - 需要替换 Pandas 中已弃用和已删除的 API

转载 作者:太空宇宙 更新时间:2023-11-04 04:19:18 27 4
gpt4 key购买 nike

我实际上正在使用某人的代码来学习 NLP,并在尝试运行他们的代码时遇到了这个错误:

File "ls-dlm.py", line 23, in <module>
y = data.is_duplicate.values
File "/Users/Abhishek/Projects/Python-Projects/Python-VEs/Log-Similarity/lib/python3.7/site-packages/pandas/core/generic.py", line 5067, in __getattr__
return object.__getattribute__(self, name)
AttributeError: 'DataFrame' object has no attribute 'is_duplicate'

代码

data = pd.read_pickle("data/log_dataset.pkl")
y = data.is_duplicate.values
ytrain_enc = np_utils.to_categorical(y)

显然,is_duplicate 方法不再存在,我试图从 Pandas 的文件和旧文档中挖掘一些信息,但一无所获。

谁能解释一下这个方法的作用以及如何用 Pandas 版本中的最新 API 替换它?

非常感谢您的帮助。

P.S :我也是 Pandas 的新手,所以我真的不知道如何替换它或者它一开始做了什么。希望能得到新手的解答。

最佳答案

is_duplicate 不一定是 Pandas 方法 名称。它看起来更像是对具有此名称的的引用。

查看它之后的 .values。这似乎证实了我的假设,即:

  • 该程序实际上试图找到具有此名称的(系列类型),
  • 然后它引用 values 属性,即尝试将其转换为它的 Numpy 表示(我遇到了一个警告,应该使用 to_numpy() 函数代替)。

也许您应该根据现有数据“重新创建”此列。为此,请尝试找出您的 DataFrame 的哪些列标识作为独特实体的一行。然后调用:

df['is_duplicate'] = df.duplicated([<a_list_of_columns>])

您将得到缺少的列。

当然,你应该弄清楚,是否要查找所有重复项或者除了第一个实例之外的所有实例(有一个相关参数重复 函数)。

另一种查看方式:检查您的 DataFrame,它可能已经包含一列在您的代码中使用相似 名称和is_duplicate 是拼写错误的版本“正确的”列名。

关于python - 需要替换 Pandas 中已弃用和已删除的 API,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54807920/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com