gpt4 book ai didi

python - 具有不同数据类型列的 Pandas 数据框的列切片是否创建 View 或副本?

转载 作者:行者123 更新时间:2023-12-05 05:31:41 24 4
gpt4 key购买 nike

我有一些数据框如下:

df = pd.DataFrame([[1,2.0],[3,4.0]], index = ['row1','row2'], 
columns = ['a','b'])
df2 = df.iloc[:, :]
df3 = df.iloc[:1, :]
df4 = df.iloc[:, :1]

a 列是 int 而 b 列是 float。

问题:是df2,df3,df4查看还是复制

测试 1:

print(df._is_view, df._is_copy)
print(df2._is_view, df2._is_copy)
print(df3._is_view, df3._is_copy)
print(df4._is_view, df4._is_copy)
False None
False None
False <weakref at 0x7fed1113de90; to 'DataFrame' at 0x7fed11aa80a0>
True <weakref at 0x7fed114d65c0; to 'DataFrame' at 0x7fed11aa9ab0>

由此可见,df2, df3 不是 View 。但是 df4 是。

为什么?

测试 2:

df2.loc['row1', 'b'] = 100.0
print(df1)
df3.loc['row1', 'a'] = 1000.0
print(df1)
df4.loc['row1', 'a'] = 10000.0
print(df1)

a b
row1 10 2.0
row2 3 4.0
a b
row1 100 2.0
row2 3 4.0
a b
row1 100 2.0
row2 3 4.0

/tmp/ipykernel_2006744/1832530048.py:5: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
df4.loc['row1', 'a'] = 1000

由此可见,df2df3更新时,df的值也随之更新。所以 df2df3 应该是一个 View 。

更新 df4 不会传播到 df,因此 df4 似乎是一个副本。

为什么结果与_is_view相矛盾

问题2:

设置df4 时的SettingWithCopyWarning 表示切片的副本。这是指什么?

“切片”是指 df4 吗?如果我使用的是 .loc,那么“切片的副本”是什么?

最佳答案

您正在为新创建的切片数据框设置值。不要这样做。这是一种链式分配,由 the document 发出警告.

在您的代码中,df2df3 是 View ,df4 是副本。从未记录的 API _is_view_is_copy 无法准确确定。警告中的'a copy of a slice'表示df[:, :1]的结果作为副本,其中'a slice'表示符号源代码df[:, :1] - Python 切片语法。

在当前的 Pandas 实现中,由于以下原因,无法轻易定义数据帧的切片是 View 还是原始帧的副本。

  • 数据框的单元格值可以存储到多个 NumPy 数组中。(有关详细信息,请参阅 Uwe 的 The BlockManager。)

  • 对切片创建的跟踪引用的实现不完整。(例如,请参见 NDFrame._slice()。它不会检查是否通过 Block.take_nd() 完成了实际复制。)

所以文档含糊地说“......可能取决于上下文”。 _is_view_is_copy 没有提供准确的信息。链式分配的内部检查并不总是完成。

例如,您可以在下面看到这种不完整。

print('on a heterogenious one')
df = pd.DataFrame({'a': [1, 2], 'b': [4, 5], 'c': ['a', 'b']})
df.iloc[:, :1].loc[0, 'a'] = 10

print('on a homogenious one')
df = pd.DataFrame({'a': [1, 2], 'b': [4, 5]})
df.iloc[:, :1].loc[0, 'a'] = 10

这会输出以下内容。

on a heterogenious one
on a homogenious one
test_iloc.py:10: SettingWithCopyWarning:
...

关于python - 具有不同数据类型列的 Pandas 数据框的列切片是否创建 View 或副本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74312668/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com