gpt4 book ai didi

python - 从系列更改索引创建 Pandas 数据框

转载 作者:太空宇宙 更新时间:2023-11-03 14:21:24 25 4
gpt4 key购买 nike

我有两个以相同格式索引的系列。以下是下面两个的剪辑(由于数据量大,我不会显示整个集合):

>>> s1
Out[52]:
parameter_id parameter_type_cs_id
4959 1 -0.2664122
4960 1 -0.004289398
4961 1 -0.006652875
4966 1 -0.004208685
4967 1 -0.02268688
4968 1 -0.05958452
4969 1 -0.01133198
4970 1 -0.01968251
4972 1 -0.05860331
4974 1 -0.08260008
4975 1 -0.05402012
4979 1 -0.0308407
4980 1 -0.02232495
4987 1 -0.2315813
4990 1 -0.02171027
...
727241 1 -0.00156766
727242 1 -0.0009964491
727243 1 -0.007068732
727244 1 -0.003500738
727245 1 -0.006572505
727246 1 -0.0005814131
728060 1 -0.0144799
728062 1 -0.0418521
728063 1 -0.01367948
728065 1 -0.03625054
728066 1 -0.06806824
728068 1 -0.007910916
728071 1 -0.005482052
728073 1 -0.005845178
intercept [-11.4551819018]
Name: coef, Length: 1529, dtype: object

>>> s2
Out[53]:
parameter_id parameter_type_cs_id
4958 1 -0.001683882
4959 1 -1.009859
4960 1 -0.0004456379
4961 1 -0.005564386
4963 1 -0.9145955
4964 1 -0.0009077246
4965 1 -0.0003179153
4966 1 -0.0006907124
4967 1 -0.02125838
4968 1 -0.02443978
4969 1 -0.002665334
4970 1 -0.003135213
4971 1 -0.0003539563
4972 1 -0.03684852
4973 1 -0.0001203596
...
728044 1 -0.0003084855
728060 1 -0.925618
728061 1 -0.001192743
728062 1 -0.9203911
728063 1 -0.002522615
728064 1 -0.0003572484
728065 1 -0.003475959
728066 1 -0.02329697
728068 1 -0.001412785
728069 1 -0.002095895
728070 1 -9.790675e-05
728071 1 -0.0003013977
728072 1 -0.0003369116
728073 1 -0.000249748
intercept [-12.1281459287]
Name: coef, Length: 1898, dtype: object

索引格式相同,所以我尝试将它们放入数据框中,如下所示:

d = {'s1': s1, 's2': s2}
df = pd.DataFrame(d)

但是我注意到输出几乎都是 NaN,这让我感到震惊。我查看了各个系列的索引并注意到数据框将它们作为字符串而不是与系列相同的格式

>>> s1.index.values
Out[54]:
array([(4959, 1), (4960, 1), (4961, 1), ..., (728071, 1), (728073, 1),
('intercept', '')], dtype=object)

>>> s2.index.values
Out[55]:
array([(4958, 1), (4959, 1), (4960, 1), ..., (728072, 1), (728073, 1),
('intercept', '')], dtype=object)

但是dataframe有字符串

>>> df.index.values
Out[56]:
array([('4959', '1'), ('4960', '1'), ('4961', '1'), ..., ('8666', '1'),
('9638', '1'), ('intercept', '')], dtype=object)

为什么它会改变类型,这会导致我的问题...?

对我来说更奇怪的是,如果我在较小的集合上尝试与上面相同的操作,我会看到我期望的行为(并非所有 NaN 并且索引未转换)

s1_ = s1[:15]
s2_ = s2[:15]
d_ = {'s1': s1_, 's2': s2_}
df_ = pd.DataFrame(d_) #<---- This has the behavior I would expect

编辑我找到了一种可行的方法,但我不确定为什么它会这样工作,如果我将两个系列都转换为数据帧然后加入它们,它会按预期工作:

df_1 = pd.DataFrame({'s1': s1})
df_2 = pd.DataFrame({'s2': s2})
new_df = df_1.join(df_2) #WHY DOES THIS WAY WORK!?!?

最佳答案

我没有你的数据框,但这里有一个小数据示例,显示 pandas 按预期构建数据框(使用 pandas 0.15.1 和 python 3.4)。正如预期的那样,当索引不匹配时会引入 NaN。

数据的最后一行是 ('intercept', ''),而所有其他行都是数字。所以 ('intercept', '') 转到每个系列的索引,这可能导致索引中的值被“提升”为字符串。

>> s1 = pd.Series([1,2,3], index=pd.MultiIndex.from_tuples([(1,1),(1,2),(1,3)], names=['a','b']))
>>> s1
a b
1 1 1
2 2
3 3
dtype: int64
>>> s2 = pd.Series([100,200,300], index=pd.MultiIndex.from_tuples([(1,2),(1,3),(1,4)], names=['a','b']))
>>>
>>> s2
a b
1 2 100
3 200
4 300
dtype: int64
>>> df = pd.DataFrame({'s1':s1, 's2':s2})
>>> df
s1 s2
a b
1 1 1 NaN
2 2 100
3 3 200
4 NaN 300
>>> df.index.values
array([(1, 1), (1, 2), (1, 3), (1, 4)], dtype=object)

关于python - 从系列更改索引创建 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27515266/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com