gpt4 book ai didi

python - 从 .csv 文件中读取值并将它们转换为 float 组

转载 作者:行者123 更新时间:2023-11-28 22:00:37 25 4
gpt4 key购买 nike

我偶然发现了一个小编码问题。我基本上必须从看起来很像这样的 .csv 文件中读取数据:

2011-06-19 17:29:00.000,72,44,56,0.4772,0.3286,0.8497,31.3587,0.3235,0.9147,28.5751,0.3872,0.2803,0,0.2601,0.2073,0.1172,0,0.0,0,5.8922,1,0,0,0,1.2759

现在,我基本上需要一个由这样的行组成的整个文件,并将它们解析为 numpy 数组。到目前为止,我已经能够使用类似于以下的代码将它们放入一个大的字符串类型对象中:

order_hist = np.loadtxt(filename_input,delimiter=',',dtype={'names': ('Year', 'Mon', 'Day', 'Stock', 'Action', 'Amount'), 'formats': ('i4', 'i4', 'i4', 'S10', 'S10', 'i4')})

到目前为止,该文件的格式由一组 S20 数据类型组成。我需要基本上将大 ORDER_HIST 数据类型中的所有数据提取到每列的一组数组中。我不知道如何保存日期时间列(我现在将其保存为字符串)。我需要将其余部分转换为 float ,但下面的代码给我一个错误:

    temparr=float[:len(order_hist)]
for x in range(len(order_hist['Stock'])):
temparr[x]=float(order_hist['Stock'][x]);

谁能告诉我如何将所有列转换为我需要的数组???或者可能会指导我访问某个链接?

最佳答案

小伙子,我有请你吃吗? numpy.genfromtxt有一个 converters 参数,它允许您在解析文件时为每一列指定一个函数。该函数被提供 CSV 字符串值。它的返回值成为numpy数组中对应的值。

此外,dtype = None 参数告诉 genfromtxt 对每一列的类型进行智能猜测。特别是,数字列会自动转换为适当的数据类型。

例如,假设你的数据文件包含

2011-06-19 17:29:00.000,72,44,56

然后

import numpy as np
import datetime as DT

def make_date(datestr):
return DT.datetime.strptime(datestr, '%Y-%m-%d %H:%M:%S.%f')

arr = np.genfromtxt(filename, delimiter = ',',
converters = {'Date':make_date},
names = ('Date', 'Stock', 'Action', 'Amount'),
dtype = None)
print(arr)
print(arr.dtype)

产量

(datetime.datetime(2011, 6, 19, 17, 29), 72, 44, 56)
[('Date', '|O4'), ('Stock', '<i4'), ('Action', '<i4'), ('Amount', '<i4')]

您的真实 csv 文件有更多列,因此您需要向 names 添加更多项目,但除此之外,该示例仍然有效。

如果你真的不关心额外的列,你可以像这样分配一个绒毛名称:

arr = np.genfromtxt(filename, delimiter=',',
converters={'Date': make_date},
names=('Date', 'Stock', 'Action', 'Amount') +
tuple('col{i}'.format(i=i) for i in range(22)),
dtype = None)

产量

(datetime.datetime(2011, 6, 19, 17, 29), 72, 44, 56, 0.4772, 0.3286, 0.8497, 31.3587, 0.3235, 0.9147, 28.5751, 0.3872, 0.2803, 0, 0.2601, 0.2073, 0.1172, 0, 0.0, 0, 5.8922, 1, 0, 0, 0, 1.2759)

您可能也有兴趣查看 pandas构建在 numpy 之上的模块,它将 CSV 解析提升到了一个更高的层次:它有一个 pandas.read_csv parse_dates = True 参数将自动解析日期字符串的函数(使用 dateutil )。

使用 pandas,您的 csv 可以解析为

df = pd.read_csv(filename, parse_dates = [0,1], header = None,
names=('Date', 'Stock', 'Action', 'Amount') +
tuple('col{i}'.format(i=i) for i in range(22)))

请注意,无需指定 make_date 函数。明确一点——pands.read_csv返回一个DataFrame,而不是一个 numpy 数组。 DataFrame 实际上可能对您的目的更有用,但您应该意识到它是一个不同的对象,具有全新的方法世界可供利用和探索。

关于python - 从 .csv 文件中读取值并将它们转换为 float 组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14493026/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com