gpt4 book ai didi

python - 在 iterrows 不一致行为期间修改数据框

转载 作者:太空宇宙 更新时间:2023-11-04 00:13:56 24 4
gpt4 key购买 nike

我有两个非常相似的 iterrows 循环,一个按我的预期工作,另一个不工作。我的问题是什么使第二个与第一个不同,为什么这会改变我的循环的行为?谢谢

工作循环

我正在使用数据框 drugs_tall 中名为 date_of_birth 的列。 date_of_birth 中的值如下所示:

> list(drugs_tall.loc[0:5,'date_of_birth'])

['10271964', '08161951', '08241965', '01211959', '12061956', '10041987']

我这样更改该列:

import numpy as np


for index, row in drugs_tall.iterrows():
date_string = row['date_of_birth']
print(date_string)
if pd.isnull(row['date_of_birth']) == False:
month_day, year = re.findall('....', date_string)
month, day = re.findall('..', month_day)
format_date = year + '-' + month + '-' + day
run_date = datetime.strptime(format_date, '%Y-%m-%d')
row['date_of_birth'] = run_date
else:
row['date_of_birth'] = np.nan

运行上面的代码后,我检查了 date_of_birth 的值:

> list(drugs_tall.loc[0:5,'date_of_birth'])

[datetime.datetime(1964, 10, 27, 0, 0),
datetime.datetime(1951, 8, 16, 0, 0),
datetime.datetime(1965, 8, 24, 0, 0),
datetime.datetime(1959, 1, 21, 0, 0),
datetime.datetime(1956, 12, 6, 0, 0),
datetime.datetime(1987, 10, 4, 0, 0)]

我们可以看到我的日期现在是 datetime 对象,太棒了!

非工作循环

这次我在名为 drugs_merged 的数据框中处理三列

  • 初始日期:date_of_visit
  • 我想从初始日期中减去的天数:diff_from_baseline_days
  • 减法结果:format_start_date

检查那些。 . .

> list(drugs_merged.loc[21:25,'date_of_visit'])

[Timestamp('2011-10-12 00:00:00'),
Timestamp('2011-10-13 00:00:00'),
Timestamp('2011-10-13 00:00:00'),
Timestamp('2011-10-20 00:00:00'),
Timestamp('2011-10-24 00:00:00')]


> list(drugs_merged.loc[21:25,'diff_from_baseline_days'])

[42, 60.84, '', '', 182.52]

> list(drugs_merged.loc[21:25,'format_start_date'])

['',
'',
datetime.datetime(2001, 1, 1, 0, 0),
datetime.datetime(2004, 1, 1, 0, 0),
'']

我现在尝试更改 format_start_date,当它是 '' 并且感兴趣的其他两列不是 '' 时。

from datetime import timedelta

#drugs_merged['placeholder'] = ""
for index, row in drugs_merged.iterrows():
if ((row['date_of_visit'] != "") & (row['diff_from_baseline_days'] != "") & (row['format_start_date'] == "") ):
patient = row['visit_id']
#print(patient)
delta = pd.Timedelta(row['diff_from_baseline_days'], unit = 'd')
print(delta)
date = row['date_of_visit']
print(date)
start_date = date - delta
print(start_date)
row['format_start_date'] = start_date
print(row['format_start_date'])

第 21 行(drugs_merged.loc[21,'diff_from_baseline_days'] 上面)的调试打印语句的结果是:

42 days 00:00:00
2011-10-12 00:00:00
2011-08-31 00:00:00
2011-08-31 00:00:00

因此我们可以看到计算是正确进行的。

检查原始drugs_merged中是否填写了format_start_date,我们可以看到format_start_date没有改变!

> list(drugs_merged.loc[21:25,'format_start_date'])

['',
'',
datetime.datetime(2001, 1, 1, 0, 0),
datetime.datetime(2004, 1, 1, 0, 0),
'']

重复我的问题,既然你已经把它放在了这面文字墙的底部……是什么让第二个与第一个不同,为什么这会改变我的循环的行为?

再次感谢

最佳答案

根据 the docs for df.iterrows :

  1. You should never modify something you are iterating over. This is not guaranteed to work in all cases. Depending on the data types, the iterator returns a copy and not a view, and writing to it will have no effect.

因此,您永远不应依赖修改 row 来影响 df。它在第一种情况下起作用,因为 row 恰好是那里的 df 的 View ,但它在第二种情况下不起作用,因为 row 转出来是一个副本。 Pandas API 确实指定 df.iterrows 何时返回 View 或副本,因此您永远不应依赖 row 作为 View 。

我们需要找到一种不同的方式来编写代码。事实上,由于 iterrows 是操作 Pandas DataFrame 最慢的方法之一(因为它忽略了 Pandas 在争取更好性能方面的主要武器——列向量化计算)我们应该有额外的动力寻找不同的方式。

幸运的是,循环可以向量化:

mask = ((drugs_merged['date_of_visit'] != "") 
& (drugs_merged['diff_from_baseline_days'] != "")
& (drugs_merged['format_start_date'] == "") )

patients = drugs_merged['visit_id']
deltas = pd.to_timedelta(drugs_merged['diff_from_baseline_days'], unit='d')
dates = drugs_merged['date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates

请注意,您也可以屏蔽计算的每个步骤(而不是仅屏蔽最终分配):

mask = ((drugs_merged['date_of_visit'] != "") 
& (drugs_merged['diff_from_baseline_days'] != "")
& (drugs_merged['format_start_date'] == "") )

patients = drugs_merged.loc[mask, 'visit_id']
deltas = pd.to_timedelta(drugs_merged.loc[mask, 'diff_from_baseline_days'], unit='d')
dates = drugs_merged.loc[mask, 'date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates

这可能会或可能不会更快,具体取决于 mask 中 True/False 值的比率。每个 df.loc[mask, ...] 都会生成 df 一部分的副本。复制可能是一项昂贵的操作。如果 mask 由 99% 的 True 组成,那么很多时间将被浪费在复制 drugs_merged 的部分上False 部分的计算。另一方面,如果 mask 由 1% 的 True 组成,那么少量复制将有助于避免对大量 False 部分进行不必要的计算.

因此,使用未屏蔽版本(第一 block 代码)还是完全屏蔽版本(第二 block )是否有利取决于mask的性质。


这是一个演示问题的玩具示例(以及各种行为你看到了):

当DataFrame中的所有值都是字符串时,dtype是同质的。底层数据驻留在具有相同同质数据类型的单个 NumPy 数组中,并且可以将其分割成行,即 View 。因此,是 View :

import pandas as pd

df1 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
for idx, row in df1.iterrows():
row['C'] = 'success'
print(df1)

产量

   A          B        C
0 X 2018-7-26 success
1 Y success

当我们使用 pd.to_datetime 将日期字符串转换为时间戳时,一列的 dtype 从 object 变为 datetime64[ns]。现在,底层数据至少驻留在两个 block 中——一个 dtype object,另一个 dtype datetime64[ns]。 ( block 只能有一个数据类型。根据您在 DataFrame 上执行的操作,“未合并的”DataFrame 最终可能会包含两个相同数据类型的 block 。在这种奇怪的极端情况下,即使 DataFrame 具有同质数据类型, 我的仍然是副本......)。现在生成 row 需要将底层数据复制到一个新的 dtype object 系列中。由于 row 现在是副本,因此修改 row 无法修改 df2:

df2 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
df2['B'] = pd.to_datetime(df2['B'])
for idx, row in df2.iterrows():
row['C'] = 'success'
print(df2)

产量

   A          B     C
0 X 2018-07-26 fail
1 Y NaT fail

但是如果我们要保持 df3 的同质数据类型(例如所有字符串),那么 row 是一个 View ,因此 row 的修改> 在循环内部也修改了 df3:

df3 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
for idx, row in df3.iterrows():
row['B'] = pd.Timestamp(row['B'])
row['C'] = 'success'
print(df3)

产量

   A                    B        C
0 X 2018-07-26 00:00:00 success
1 Y NaT success

关于python - 在 iterrows 不一致行为期间修改数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51546170/

24 4 0
文章推荐: python - Python3 中的字典帮助
文章推荐: html - 为 Internet Explorer 和 Firefox 选择菜单箭头样式
文章推荐: html - 重新定位 HTML