gpt4 book ai didi

python - 如何处理与 Pandas 数据框关联的元数据?

转载 作者:太空宇宙 更新时间:2023-11-03 12:03:35 27 4
gpt4 key购买 nike

问题 1:将元信息保存到数据框的最佳做法是什么?我知道以下编码实践

import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'

但正如这篇文章中所述Adding meta-information/metadata to pandas DataFrame这与应用“groupby、pivot、join 或 loc”等函数丢失信息的风险有关,因为它们可能返回“没有附加元数据的新 DataFrame”。

这是否仍然有效,或者同时对元信息处理进行了更新?为此目的对 pandas 进行子类化是好的编码实践吗?

问题 2:什么是替代编码实践?

我认为构建一个单独的对象不是很合适。使用 Multiindex 也不能说服我。可以说我想用带有收入的数据框划分带有价格的数据框。使用 Multiindices 会非常复杂。

#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)

# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
[['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]],
columns=e_index)

price.divide(earnings.values, level=1, axis=0)

在上面的例子中,我什至没有确保公司指数真的匹配。我可能需要调用 pd.DataFrame.reindex() 或类似的。在我看来,这不是一个好的编码习惯。

对于在我看不到的上下文中处理元信息的问题,是否有直接的解决方案?

提前致谢

最佳答案

虽然构建自定义对象不是您的首选,但它可能是您唯一可行的选择,并且具有极其灵活的显着优势。这是一个非常简单的示例:

df=pd.DataFrame({'stock': 'AAPL AAPL MSFT MSFT'.split(),
'price':[ 445.,455.,195.,205.]})

col_labels = { 'stock' : 'Ticker Symbol',
'price' : 'Closing Price in USD' }

这只是列标签的字典,但通常大多数元数据都与特定列相关。这是带有标签的示例数据:

df.rename(columns=col_labels)

# Ticker Symbol Closing Price in USD
# 0 AAPL 445.0
# 1 AAPL 455.0
# 2 MSFT 195.0
# 3 MSFT 205.0

好处是标签“持久化”,您基本上可以将它们应用于列是原始列的子集或超集的任何数据:

df.groupby('stock').mean().rename(columns=col_labels)

# Closing Price in USD
# stock
# AAPL 450.0
# MSFT 200.0

如果使用 attrs 属性,您可以获得一些有限的持久性:

df.attrs = col_labels

但它相当有限。对于通过 .copy()loc[]iloc[] 派生的数据帧,它将持续存在,但对于 groupby 则不会()。您当然可以重新附加到任何衍生数据框,例如,

df2.attrs = df.attrs

但如 documentation 中所述(或缺乏),这是一项实验性功能,可能会发生变化。似乎聊胜于无,也许以后会扩展。我找不到太多关于 attrs 的信息,但它似乎被初始化为一个空字典,并且只能是一个字典(或类似的),当然列表可以嵌套在顶部下方水平。

关于python - 如何处理与 Pandas 数据框关联的元数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39751807/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com