gpt4 book ai didi

python - 使 Int64 成为默认的整数 dtype,而不是 pandas 中的标准 int64

转载 作者:IT老高 更新时间:2023-10-28 21:14:18 27 4
gpt4 key购买 nike

我想要我的所有数据帧,无论它们是否由任何一个构造函数重载构建,是否源自 .read_csv().read_xlsx( ).read_sql() 或任何其他方法,以使用新的可空值 Int64 datatype作为所有整数的默认 dtype,而不是 int64

如果没有“好”的方法,我愿意不顾一切地去做这件事,包括子类化 DataFrame 或 Series 类,以及重新实现任意数量的方法和构造函数属性等。

我的问题是,可以做到吗?如果可以,我会怎么做?

最佳答案

你可以使用这样的函数:

def nan_ints(df, convert_strings=False, subset=None):
types = ["int64", "float64"]
if subset is None:
subset = list(df)
if convert_strings:
types.append("object")
for col in subset:
if df[col].dtype in types:
df[col] = (
df[col].astype(float, errors="ignore").astype("Int64", errors="ignore")
)
return df

它遍历每一列,如果它是 int,则将其转换为 Int64。如果它是 float ,则只有当列中的所有值都可以转换为 NaN 以外的整数时,它才会转换为 Int64。我已经为您提供了使用 convert_strings 参数将字符串转换为 Int64 的选项。

df1 = pd.DataFrame({'a':[1.1,2,3,1],
'b':[1,2,3,np.nan],
'c':['1','2','3',np.nan],
'd':[3,2,1,np.nan]})


nan_ints(df1,convert_strings=True,subset=['b','c'])
df1.info()

将返回以下内容:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
a 4 non-null float64
b 3 non-null Int64
c 3 non-null Int64
d 3 non-null float64
dtypes: Int64(2), float64(2)
memory usage: 216.0 bytes

如果你打算在每个 DataFrame 上使用它,你可以将函数添加到模块中,并在每次你想使用 pandas 时导入它。从 my_module 导入 nan_ints然后只需将其与以下内容一起使用:nan_ints(pd.read_csv(path))

注意:可空整数数据类型是 0.24.0 版中的新增内容。这里是 documentation .

关于python - 使 Int64 成为默认的整数 dtype,而不是 pandas 中的标准 int64,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56220651/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com