- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有两个非常相似的 iterrows 循环,一个按我的预期工作,另一个不工作。我的问题是什么使第二个与第一个不同,为什么这会改变我的循环的行为?谢谢
我正在使用数据框 drugs_tall
中名为 date_of_birth
的列。 date_of_birth
中的值如下所示:
> list(drugs_tall.loc[0:5,'date_of_birth'])
['10271964', '08161951', '08241965', '01211959', '12061956', '10041987']
我这样更改该列:
import numpy as np
for index, row in drugs_tall.iterrows():
date_string = row['date_of_birth']
print(date_string)
if pd.isnull(row['date_of_birth']) == False:
month_day, year = re.findall('....', date_string)
month, day = re.findall('..', month_day)
format_date = year + '-' + month + '-' + day
run_date = datetime.strptime(format_date, '%Y-%m-%d')
row['date_of_birth'] = run_date
else:
row['date_of_birth'] = np.nan
运行上面的代码后,我检查了 date_of_birth
的值:
> list(drugs_tall.loc[0:5,'date_of_birth'])
[datetime.datetime(1964, 10, 27, 0, 0),
datetime.datetime(1951, 8, 16, 0, 0),
datetime.datetime(1965, 8, 24, 0, 0),
datetime.datetime(1959, 1, 21, 0, 0),
datetime.datetime(1956, 12, 6, 0, 0),
datetime.datetime(1987, 10, 4, 0, 0)]
我们可以看到我的日期现在是 datetime
对象,太棒了!
这次我在名为 drugs_merged
的数据框中处理三列
date_of_visit
diff_from_baseline_days
format_start_date
检查那些。 . .
> list(drugs_merged.loc[21:25,'date_of_visit'])
[Timestamp('2011-10-12 00:00:00'),
Timestamp('2011-10-13 00:00:00'),
Timestamp('2011-10-13 00:00:00'),
Timestamp('2011-10-20 00:00:00'),
Timestamp('2011-10-24 00:00:00')]
> list(drugs_merged.loc[21:25,'diff_from_baseline_days'])
[42, 60.84, '', '', 182.52]
> list(drugs_merged.loc[21:25,'format_start_date'])
['',
'',
datetime.datetime(2001, 1, 1, 0, 0),
datetime.datetime(2004, 1, 1, 0, 0),
'']
我现在尝试更改 format_start_date
,当它是 ''
并且感兴趣的其他两列不是 ''
时。
from datetime import timedelta
#drugs_merged['placeholder'] = ""
for index, row in drugs_merged.iterrows():
if ((row['date_of_visit'] != "") & (row['diff_from_baseline_days'] != "") & (row['format_start_date'] == "") ):
patient = row['visit_id']
#print(patient)
delta = pd.Timedelta(row['diff_from_baseline_days'], unit = 'd')
print(delta)
date = row['date_of_visit']
print(date)
start_date = date - delta
print(start_date)
row['format_start_date'] = start_date
print(row['format_start_date'])
第 21 行(drugs_merged.loc[21,'diff_from_baseline_days']
上面)的调试打印语句的结果是:
42 days 00:00:00
2011-10-12 00:00:00
2011-08-31 00:00:00
2011-08-31 00:00:00
因此我们可以看到计算是正确进行的。
检查原始drugs_merged
中是否填写了format_start_date
,我们可以看到format_start_date
没有改变!
> list(drugs_merged.loc[21:25,'format_start_date'])
['',
'',
datetime.datetime(2001, 1, 1, 0, 0),
datetime.datetime(2004, 1, 1, 0, 0),
'']
重复我的问题,既然你已经把它放在了这面文字墙的底部……是什么让第二个与第一个不同,为什么这会改变我的循环的行为?
再次感谢
最佳答案
- You should never modify something you are iterating over. This is not guaranteed to work in all cases. Depending on the data types, the iterator returns a copy and not a view, and writing to it will have no effect.
因此,您永远不应依赖修改 row
来影响 df
。它在第一种情况下起作用,因为 row
恰好是那里的 df
的 View ,但它在第二种情况下不起作用,因为 row
转出来是一个副本。 Pandas API 确实指定 df.iterrows
何时返回 View 或副本,因此您永远不应依赖 row
作为 View 。
我们需要找到一种不同的方式来编写代码。事实上,由于 iterrows
是操作 Pandas DataFrame 最慢的方法之一(因为它忽略了 Pandas 在争取更好性能方面的主要武器——列向量化计算)我们应该有额外的动力寻找不同的方式。
幸运的是,循环可以向量化:
mask = ((drugs_merged['date_of_visit'] != "")
& (drugs_merged['diff_from_baseline_days'] != "")
& (drugs_merged['format_start_date'] == "") )
patients = drugs_merged['visit_id']
deltas = pd.to_timedelta(drugs_merged['diff_from_baseline_days'], unit='d')
dates = drugs_merged['date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates
请注意,您也可以屏蔽计算的每个步骤(而不是仅屏蔽最终分配):
mask = ((drugs_merged['date_of_visit'] != "")
& (drugs_merged['diff_from_baseline_days'] != "")
& (drugs_merged['format_start_date'] == "") )
patients = drugs_merged.loc[mask, 'visit_id']
deltas = pd.to_timedelta(drugs_merged.loc[mask, 'diff_from_baseline_days'], unit='d')
dates = drugs_merged.loc[mask, 'date_of_visit']
start_dates = dates - deltas
drugs_merged.loc[mask, 'format_start_date'] = start_dates
这可能会或可能不会更快,具体取决于 mask
中 True/False 值的比率。每个 df.loc[mask, ...]
都会生成 df
一部分的副本。复制可能是一项昂贵的操作。如果 mask
由 99% 的 True
组成,那么很多时间将被浪费在复制 drugs_merged
的部分上False
部分的计算。另一方面,如果 mask
由 1% 的 True
组成,那么少量复制将有助于避免对大量 False
部分进行不必要的计算.
因此,使用未屏蔽版本(第一 block 代码)还是完全屏蔽版本(第二 block )是否有利取决于mask
的性质。
这是一个演示问题的玩具示例(以及各种行为你看到了):
当DataFrame中的所有值都是字符串时,dtype是同质的。底层数据驻留在具有相同同质数据类型的单个 NumPy 数组中,并且可以将其分割成行,即 View 。因此,行
是 View :
import pandas as pd
df1 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
for idx, row in df1.iterrows():
row['C'] = 'success'
print(df1)
产量
A B C
0 X 2018-7-26 success
1 Y success
当我们使用 pd.to_datetime
将日期字符串转换为时间戳时,一列的 dtype 从 object
变为 datetime64[ns]
。现在,底层数据至少驻留在两个 block 中——一个 dtype object
,另一个 dtype datetime64[ns]
。 ( block 只能有一个数据类型。根据您在 DataFrame 上执行的操作,“未合并的”DataFrame 最终可能会包含两个相同数据类型的 block 。在这种奇怪的极端情况下,即使 DataFrame 具有同质数据类型, 行
我的仍然是副本......)。现在生成 row
需要将底层数据复制到一个新的 dtype object
系列中。由于 row
现在是副本,因此修改 row
无法修改 df2
:
df2 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
df2['B'] = pd.to_datetime(df2['B'])
for idx, row in df2.iterrows():
row['C'] = 'success'
print(df2)
产量
A B C
0 X 2018-07-26 fail
1 Y NaT fail
但是如果我们要保持 df3
的同质数据类型(例如所有字符串),那么 row
是一个 View ,因此 row
的修改> 在循环内部也修改了 df3
:
df3 = pd.DataFrame([('X','2018-7-26','fail'),
('Y','','fail')], columns=list('ABC'))
for idx, row in df3.iterrows():
row['B'] = pd.Timestamp(row['B'])
row['C'] = 'success'
print(df3)
产量
A B C
0 X 2018-07-26 00:00:00 success
1 Y NaT success
关于python - 在 iterrows 不一致行为期间修改数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51546170/
初学者 android 问题。好的,我已经成功写入文件。例如。 //获取文件名 String filename = getResources().getString(R.string.filename
我已经将相同的图像保存到/data/data/mypackage/img/中,现在我想显示这个全屏,我曾尝试使用 ACTION_VIEW 来显示 android 标准程序,但它不是从/data/dat
我正在使用Xcode 9,Swift 4。 我正在尝试使用以下代码从URL在ImageView中显示图像: func getImageFromUrl(sourceUrl: String) -> UII
我的 Ubuntu 安装 genymotion 有问题。主要是我无法调试我的数据库,因为通过 eclipse 中的 DBMS 和 shell 中的 adb 我无法查看/data/文件夹的内容。没有显示
我正在尝试用 PHP 发布一些 JSON 数据。但是出了点问题。 这是我的 html -- {% for x in sets %}
我观察到两种方法的结果不同。为什么是这样?我知道 lm 上发生了什么,但无法弄清楚 tslm 上发生了什么。 > library(forecast) > set.seed(2) > tts lm(t
我不确定为什么会这样!我有一个由 spring data elasticsearch 和 spring data jpa 使用的类,但是当我尝试运行我的应用程序时出现错误。 Error creatin
在 this vega 图表,如果我下载并转换 flare-dependencies.json使用以下 jq 到 csv命令, jq -r '(map(keys) | add | unique) as
我正在提交一个项目,我必须在其中创建一个带有表的 mysql 数据库。一切都在我这边进行,所以我只想检查如何将我所有的压缩文件发送给使用不同计算机的人。基本上,我如何为另一台计算机创建我的数据库文件,
我有一个应用程序可以将文本文件写入内部存储。我想仔细看看我的电脑。 我运行了 Toast.makeText 来显示路径,它说:/数据/数据/我的包 但是当我转到 Android Studio 的 An
我喜欢使用 Genymotion 模拟器以如此出色的速度加载 Android。它有非常好的速度,但仍然有一些不稳定的性能。 如何从 Eclipse 中的文件资源管理器访问 Genymotion 模拟器
我需要更改 Silverlight 中文本框的格式。数据通过 MVVM 绑定(bind)。 例如,有一个 int 属性,我将 1 添加到 setter 中的值并调用 OnPropertyChanged
我想向 Youtube Data API 提出请求,但我不需要访问任何用户信息。我只想浏览公共(public)视频并根据搜索词显示视频。 我可以在未经授权的情况下这样做吗? 最佳答案 YouTube
我已经设置了一个 Twilio 应用程序,我想向人们发送更新,但我不想回复单个文本。我只是想让他们在有问题时打电话。我一切正常,但我想在发送文本时显示传入文本,以确保我不会错过任何问题。我正在使用 p
我有一个带有表单的网站(目前它是纯 HTML,但我们正在切换到 JQuery)。流程是这样的: 接受用户的输入 --- 5 个整数 通过 REST 调用网络服务 在服务器端运行一些计算...并生成一个
假设我们有一个名为 configuration.js 的文件,当我们查看内部时,我们会看到: 'use strict'; var profile = { "project": "%Projec
这部分是对 Previous Question 的扩展我的: 我现在可以从我的 CI Controller 成功返回 JSON 数据,它返回: {"results":[{"id":"1","Sourc
有什么有效的方法可以删除 ios 中 CBL 的所有文档存储?我对此有疑问,或者,如果有人知道如何从本质上使该应用程序像刚刚安装一样,那也会非常有帮助。我们正在努力确保我们的注销实际上将应用程序设置为
我有一个 Rails 应用程序,它与其他 Rails 应用程序通信以进行数据插入。我使用 jQuery $.post 方法进行数据插入。对于插入,我的其他 Rails 应用程序显示 200 OK。但在
我正在为服务于发布请求的 API 调用运行单元测试。我正在传递请求正文,并且必须将响应作为帐户数据返回。但我只收到断言错误 注意:数据是从 Azure 中获取的 spec.js const accou
我是一名优秀的程序员,十分优秀!