gpt4 book ai didi

python - 转换 Pandas DataFrame 中列值的最有效方法

转载 作者:太空宇宙 更新时间:2023-11-03 12:46:00 25 4
gpt4 key购买 nike

我有一个 pd.DataFrame 看起来像:

enter image description here

我想在值上创建一个截止值以将它们插入二进制数字,在这种情况下我的截止值是 0.85。我希望生成的数据框看起来像:

enter image description here

我为此编写的脚本很容易理解,但对于大型数据集来说效率很低。我确信 Pandas 有一些方法可以处理这些类型的转换。

有人知道使用阈值将一列 float 转换为一列整数的有效方法吗?

我做这种事情的方式非常天真:

DF_test = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0.12,0.23,0.93,0.86,0.33]]).T,columns=["c1","c2","value"])
DF_want = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0,0,1,1,0]]).T,columns=["c1","c2","value"])


threshold = 0.85

#Empty dataframe to append rows
DF_naive = pd.DataFrame()
for i in range(DF_test.shape[0]):
#Get first 2 columns
first2cols = list(DF_test.ix[i][:-1])
#Check if value is greater than threshold
binary_value = [int((bool(float(DF_test.ix[i][-1]) > threshold)))]
#Create series object
SR_row = pd.Series( first2cols + binary_value,name=i)
#Add to empty dataframe container
DF_naive = DF_naive.append(SR_row)
#Relabel columns
DF_naive.columns = DF_test.columns
DF_naive.head()
#the sample DF_want

最佳答案

您可以使用 np.where 根据 boolean 条件设置所需的值:

In [18]:
DF_test['value'] = np.where(DF_test['value'] > threshold, 1,0)
DF_test

Out[18]:
c1 c2 value
0 a p 0
1 b q 0
2 c r 1
3 d s 1
4 e t 0

请注意,因为您的数据是异构 np 数组,所以“值”列包含字符串而不是 float :

In [58]:
DF_test.iloc[0]['value']

Out[58]:
'0.12'

因此您需要先将 dtype 转换为 float:DF_test['value'] = DF_test['value'].astype(float )

你可以比较时间:

In [16]:
%timeit np.where(DF_test['value'] > threshold, 1,0)
1000 loops, best of 3: 297 µs per loop

In [17]:
%%timeit
DF_naive = pd.DataFrame()
for i in range(DF_test.shape[0]):
#Get first 2 columns
first2cols = list(DF_test.ix[i][:-1])
#Check if value is greater than threshold
binary_value = [int((bool(float(DF_test.ix[i][-1]) > threshold)))]
#Create series object
SR_row = pd.Series( first2cols + binary_value,name=i)
#Add to empty dataframe container
DF_naive = DF_naive.append(SR_row)
10 loops, best of 3: 39.3 ms per loop

np.where 版本快了 100 倍以上,不可否认,您的代码做了很多不必要的事情,但您明白了这一点

关于python - 转换 Pandas DataFrame 中列值的最有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35639588/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com