gpt4 book ai didi

python - 如何在 CSV 到 JSON 转换中保持浮点精度(通过 pandas.read_csv)?

转载 作者:行者123 更新时间:2023-12-05 07:42:12 40 4
gpt4 key购买 nike

注意:我的问题不是 Format floats with standard json module 的副本.事实上,马克·迪金森 (Mark Dickinson) 在他的一条评论中对我的问题提供了一个很好的答案,这个答案是关于 pandas.read_csv 的,在之前的帖子中甚至没有提到。虽然 [pandas] 从一开始就是帖子的标签之一,但我现在编辑了标题,以便与 pandas 建立明确的联系。


作为一个非常小的例子,假设我有一个包含以下内容的文件 foo.csv:

foo
-482.044

现在,如果我使用 pandas.read_csv 读取此文件,并使用 simplejson.dumps 转储这些数据的转换,我会得到以下信息:

simplejson.dumps(pandas.read_csv('/tmp/foo.csv')
.to_dict(orient='index')
.values()[0])
# '{"foo": -482.04400000000004}'

IOW,原来的 -482.044 变成了 -482.04400000000004

注意:我明白为什么会这样。

我正在寻找的是一些方便的方法来绕过它。

IOW,在这种情况下所需的 JSON 字符串类似于

'{"foo": -482.044}'

我正在寻找一种方便的方法来生成此字符串,从前面显示的文件 foo.csv 开始。

不用说,这个例子简单得不切实际。实际上,foo.csv 将包含数千/数百万行和数十/数百列,不一定都是 float (甚至是数字)。我只对适用于此类真实数据的解决方案感兴趣。

当然,我可以通过将 dtype=str 传递给 pandas.read_csv 来完全避免浮点问题,但这不会产生预期的结果:

simplejson.dumps(pandas.read_csv('/tmp/foo.csv', dtype=str)
.to_dict(orient='index')
.values()[0])
# '{"foo": "-482.044"}'

换句话说:我希望输入的 CSV 用作关于如何序列化它包含的任何浮点值的显式规范。有没有一种简单/方便的方法来实现这一点?

最佳答案

pandas 使用 numpy 并将您的数据 -482.044 转换为 float64。但是真实的场景非常密集。然后一组 float 作为相同的代表,这里是 -482.04400000000004。 float -482.044 四舍五入到最接近的代表。

https://en.wikipedia.org/wiki/IEEE_floating_point

这里:

>>> import numpy as np
>>> np.float64(-482.044)
-482.04400000000004
>>> float(-482.044)
-482.044
>>> float(-482.044) == np.float64(-482.044)
True

因为 numpy float 与原生 python float 的表示不同。

你可以使用它:

def truncate(n, n_digits):
i, d = str(float(n)).split('.')
return '.'.join([i, d[:n_digits]])

针对您的问题:

foo.csv:

foo
-482.044

Python 脚本:

# python3

import simplejson
import pandas

# /!\ if dtype=float here it is float numpy
df = pandas.read_csv('foo.csv', dtype=str)
# here it is native float python
df['foo'] = df['foo'].apply(float)

data = simplejson.dumps({'foo': df.values[0][0]})
# data = '{"foo": -482.044}'

关于python - 如何在 CSV 到 JSON 转换中保持浮点精度(通过 pandas.read_csv)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44683668/

40 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com