gpt4 book ai didi

python - Dropna 没有下降,fillna 没有填充,我的列表理解无法理解如何摆脱 nans (python)

转载 作者:太空宇宙 更新时间:2023-11-03 14:40:09 25 4
gpt4 key购买 nike

我有一种情况,我将数据从一个数据帧添加到另一个数据帧,但我无法删除 nan 值。

示例数据

df1 = pd.DataFrame(
{
'Journal' : ['US Drug standards.','Acta veterinariae.','Bulletin of big toe science.','The UK journal of dermatology.'],
'ISSN_1': ['0096-0225', '0567-8315','0007-4977','0007-0963'],
'ISSN_2': ['0096-0225','nan','0007-4977','0007-0963'],
'ISSN_3': ['nan','1820-7448','nan','0366-077X'],
'ISSN_4': ['nan','0567-8315','nan','1365-2133']
}
)

df1 = df1[['Journal'] + df1.columns[:-1].tolist()]
df2 = pd.DataFrame(
{
'Full Journal Title': ['Drug standards.','Acta veterinaria.','Bulletin of marine science.','The British journal of dermatology.'],
'Abbreviated Title': ['DStan','Avet','Marsci','BritSkin'],
'Total Cites': ['223','444','324','166'],
'ISSN': ['0096-0225','0567-8315','0007-4977','0007-0963']
})

#this makes list of ISSNs from df1 to combine into a column to add to df2
xx=df1.set_index('Journal').values.tolist()
df2['New']=df2.ISSN.apply(lambda x : [y for y in xx if x in y] )
df2=df2[df2.New.apply(len)>0]
df2['New']=df2.New.apply(pd.Series)[0].apply(lambda x : ','.join(x))

我尝试过替换: df2 = df2.replace(np.nan, '', regex=True)

我尝试过 dropna: print(df2.dropna(subset=['New']))

我尝试过 fillna: 打印(df2.fillna(''))

我尝试过替换列表理解: xx = [xx 中值的值 if str(value) != 'nan']

无论我如何尝试,“New”列仍然充满了 nan。

0                0096-0225,0096-0225,nan,nan
1 0567-8315,nan,1820-7448,0567-8315
2 0007-4977,0007-4977,nan,nan
3 0007-0963,0007-0963,0366-077X,1365-2133

我希望它们被跳过或删除。我只想要有效的 ISSN。

预先感谢您的帮助。

最佳答案

这里发生了一些事情。首先,问题显示 'nan' 在数据框中,但注释表明这实际上应该是 nan (字符串与 null)。

第二个是您存储列表,然后将这些列表的字符串存储在数据框中,这通常是不鼓励的 - 正是您遇到的原因 - 经常会出现意外的行为。

我将解决所提出的问题,尽管您也应该能够将其适应nans

导致问题的代码是:

xx=df1.set_index('Journal').values.tolist() 
df2['New']=df2.ISSN.apply(lambda x : [y for y in xx if x in y] )
df2=df2[df2.New.apply(len)>0]
df2['New']=df2.New.apply(pd.Series)[0].apply(lambda x : ','.join(x))

这里的第二行是将 xx 中的所有值添加到包含 'nan 的 df2['New'] ' 然后后续行将它们转换为列表,然后转换为字符串。一旦这些值存在于字符串或列表中,您将无法使用普通的 pandas 方法访问它们。

我的建议是将它们从 xx 中删除,然后它们就不会出现在 df2 中:

xx=df1.set_index('Journal').values.tolist()
#get rid of nans here
xx=[[y for y in x if y != 'nan'] for x in xx]
df2['New']=df2.ISSN.apply(lambda x : [y for y in xx if x in y] )
df2=df2[df2.New.apply(len)>0]
df2['New']=df2.New.apply(pd.Series)[0].apply(lambda x : ','.join(x))

请注意,这里的第二行是在可以轻松访问时删除'nan'

这应该可以满足您的需要,但我再次警告您不要在数据框中存储列表(如果可能的话),并确保使用 nan 而不是 'nan'。希望这有帮助!

关于python - Dropna 没有下降,fillna 没有填充,我的列表理解无法理解如何摆脱 nans (python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46610007/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com