gpt4 book ai didi

python - 拆分行并计算 Pandas 中的新值

转载 作者:太空宇宙 更新时间:2023-11-04 02:48:06 24 4
gpt4 key购买 nike

假设我有这个数据框:

df = pd.DataFrame([["a", 0], ["b,c", 2]], columns = ["name", "value"])

看起来像这样:

   name  value
0 a 0
1 b,c 2

name 列中有逗号时,我想拆分该行并在新行之间平均分配 value 中的数字。因此,结果必须是:

   name  value
0 a 0
1 b 1
2 c 1

我怎样才能做到这一点?

最佳答案

计划
这对于 pandasnumpy 版本都是相同的计划

  • 获取列表列表
  • 找出这些列表的长度
  • 将值除以长度以分配
  • 按与现在相同的长度重复减少的值(value)量,现在抵消了减少,使得总和与以前相同
  • 用新系列重建数据框

Pandas

lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))

name value
0 a 0.0
1 b 1.0
2 c 1.0

numpy

lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)

name value
0 a 0.0
1 b 1.0
2 c 1.0

时间

%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))

1000 loops, best of 3: 843 µs per loop


%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)

1000 loops, best of 3: 207 µs per loop

关于python - 拆分行并计算 Pandas 中的新值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44599743/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com