gpt4 book ai didi

python - Pandas 数据框行更改类型

转载 作者:行者123 更新时间:2023-11-28 21:25:24 25 4
gpt4 key购买 nike

我正在处理一个 Assets 负债表,我使用以下方法将其解析为 pandas:

    table = xls_file.parse('Consolidated_Balance_Sheet')
table.ix[:, 1]

0 None
1 None
2 $ 3,029
3 1989
5 None
6 $ 34,479

我试图用 unicode 识别行并去掉 $ 符号和逗号,转换为 float 。

    for row in table.ix[:, 1]:
if isinstance(row, unicode):
print type(row), row
num = float(row.lstrip('$').replace(',',''))
print num
row = num
print type(row), row

这会产生以下输出:

    <type 'unicode'> $ 3,029
3029.0
<type 'float'> 3029.0
<type 'unicode'> $ 34,479
34479.0
<type 'float'> 34479.0

但是,我查表时,值没有变化

    table.ix[2, 1]
u'$ 3,029'

如何正确地将值更改为 float ?

编辑:感谢这两个回复,我可以毫无问题地重现它们。但是,当我对我的案例使用 apply 函数时,出现“无法散列的类型”错误。

In [167]: thead = table.head()
In [168]: thead

Out[168]:
Consolidated Balance Sheet (USD $) Sep. 30, 2012 Dec. 31, 2011
0 In Millions, unless otherwise specified None None
1 Current assets None None
2 Cash and cash equivalents $ 3,029 $ 2,219
3 Marketable securities - current 1989 1461
4 Accounts receivable - net 4409 3867

In [170]: def no_comma_or_dollar(num):
if isinstance(num, unicode):
return float(num.lstrip('$').replace(',',''))
else:
return num

thead[:, 1] = thead[:, 1].apply(no_comma_or_dollar)

产生以下内容:

 TypeError: unhashable type

我不明白为什么,因为我没有更改键,只更改了值。还有其他方法可以更改数据框中的值吗?

EDIT2:

In [171]: thead.to_dict()
Out[171]: {u'Consolidated Balance Sheet (USD $)': {0: u'In Millions, unless otherwise specified',
1: u'Current assets',
2: u'Cash and cash equivalents',
3: u'Marketable securities - current',
4: u'Accounts receivable - net'},
u'Dec. 31, 2011': {0: None, 1: None, 2: u'$ 2,219', 3: 1461.0, 4: 3867.0},
u'Sep. 30, 2012': {0: None, 1: None, 2: u'$ 3,029', 3: 1989.0, 4: 4409.0}}

最佳答案

你只是在打印这些而不是 apply - 将它们添加到 DataFrame,这是一种方法:

创建一个函数来进行 strip 化(如果是 unicode)或者如果已经是数字则保留它:

def no_comma_or_dollar(num):
if isinstance(num, unicode):
return float(num.lstrip('$').replace(',',''))
else:
return num

table[col_name] = table[col_name].apply(no_comma_or_dollar)

例如:

df = pd.DataFrame([[u'$1,000'], [200.]])

In [3]: df[0].apply(no_comma_or_dollar)
Out[3]:
0 1000
1 200
Name: 0

更新:

使用您提供的线程,我很想提供一个稍微懒惰的no_comma_o​​r_dollarapplymap 版本:

def no_comma_or_dollar2(num):
try:
return float(num.lstrip('$').replace(',',''))
except: # if you can't strip/replace/convert just leave it
return num

In [5]: thread.applymap(no_comma_or_dollar2)
Out[5]:
Consolidated Balance Sheet (USD $) Dec. 31, 2011 Sep. 30, 2012
0 In Millions, unless otherwise specified NaN NaN
1 Current assets NaN NaN
2 Cash and cash equivalents 2219 3029
3 Marketable securities - current 1461 1989
4 Accounts receivable - net 3867 4409

关于python - Pandas 数据框行更改类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14416660/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com