gpt4 book ai didi

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

转载 作者:IT老高 更新时间:2023-10-28 22:04:37 25 4
gpt4 key购买 nike

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:

   A B
-----
0| 1 1
1| 2 5
2| 1 5
3| 7 9
4| 7 9
5| 8 9

Wanted Result Not Wanted Result
A B A B
----- -----
0| 1 1 0| 1 1
1| 2 5 1| 2 5
2| 7 9 2|
3| 8 3| 7 9
4|
5| 8

我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了 2 种方法,一种使用新的 dataFrame,一种没有。

#With New DataFrame
def UniqueResults(dataframe):
df = pd.DataFrame()
for col in dataframe:
S=pd.Series(dataframe[col].unique())
df[col]=S.values
return df

#Without new DataFrame
def UniqueResults(dataframe):
for col in dataframe:
dataframe[col]=dataframe[col].unique()
return dataframe

我两次都出现错误“值的长度与索引的长度不匹配”。

最佳答案

当您尝试将不同长度的numpy数组列表分配给数据框时出现错误,并且可以重现如下:

四行数据框:

df = pd.DataFrame({'A': [1,2,3,4]})

现在尝试将两个元素的列表/数组分配给它:

df['B'] = [3,4]   # or df['B'] = np.array([3,4])

两个错误都出来了:

ValueError: Length of values does not match length of index

因为数据框有四行,而列表和数组只有两个元素。

解决方案(谨慎使用):将列表/数组转换为 Pandas 系列,然后在进行分配时,系列中缺少的索引将是用 NaN 填充:

df['B'] = pd.Series([3,4])

df
# A B
#0 1 3.0
#1 2 4.0
#2 3 NaN # NaN because the value at index 2 and 3 doesn't exist in the Series
#3 4 NaN

对于您的具体问题,如果您不关心索引或列之间值的对应关系,您可以在删除重复项后为每列重置索引:

df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))

# A B
#0 1 1.0
#1 2 5.0
#2 7 9.0
#3 8 NaN

关于python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42382263/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com