gpt4 book ai didi

python - 使用 numpy dtype 和转换器将 csv 列拆分为子列

转载 作者:太空宇宙 更新时间:2023-11-03 15:12:03 25 4
gpt4 key购买 nike

我有一个 csv 文件,其中一些列包含测量值(包括错误值)。我想使用 numpy genfromtxt 将所有内容导入到 python 中,并使用 dtype 格式化我的数组。假设我有一个以下格式的 csv 文件:

# Name, Time, Intensity
Sample1, 300, 1000+-5
Sample2, 300, 1500+-2

我想解析整个文件,并将值和不确定性拆分为强度列的两个子列。我定义了两种数据类型:

import numpy as np
TypeValErr = np.dtype([("value", np.int32), ("error", np.int32)])
TypeCSV=np.dtype({"names": ["name", "time", "intensity"],
"formats": ["U32", np.int32, TypeValErr],
"titles": ["Name", "Time", "Intensity"]})

使用这个数据类型,我首先自己创建一个测试数组:

Intensity = np.array([(2000, 12)], dtype=TypeValErr)
CSVentry = np.array([("Sample3", 300, Intensity)], dtype=TypeCSV)

print(CSVentry)

这给了我预期的输出

[('Sample3', 300, (2000, 12))]

在下一步中,我想使用此数据类型导入 CSV。由于强度列的格式错误,我想使用转换器将输出转换为正确的格式:

def convertToValErrArr(txt):
splitted = txt.split("+-")
return np.array([(splitted[0], splitted[1])], dtype=TypeValErr)

print(np.array([("Sample3", 300, convertToValErrArr("1800+-7"))], dtype=TypeCSV))

输出再次给出了预期

[('Sample3', 300, (1800, 7))]

但最后,导入本身会引发错误。这是我的代码:

ConvertFunc = lambda x: convertToValErrArr(x)

file = np.genfromtxt("test.csv",
delimiter=",",
autostrip=True,
dtype=TypeCSV,
skip_header=1,
converters={2: lambda x: convertToValErrArr(str(x))})

这是我的错误:

Traceback (most recent call last):
File "csvimport.py", line 28, in <module>
converters={2: lambda x: convertToValErrArr(str(x))})
File "/usr/lib/python3.6/site-packages/numpy/lib/npyio.py", line 1896, in genfromtxt
rows = np.array(data, dtype=[('', _) for _ in dtype_flat])
ValueError: size of tuple must match number of fields.

我没有看到错误。 genfromtxt 是否以不同的方式处理数据?我希望有人有想法!非常感谢。

最佳答案

使用您的数据类型和 4 列,它可以工作(嵌套数据类型和所有数据类型)

In [58]: TypeValErr = np.dtype([("value", np.int32), ("error", np.int32)])
...: TypeCSV=np.dtype({"names": ["name", "time", "intensity"],
...: "formats": ["U32", np.int32, TypeValErr],
...: "titles": ["Name", "Time", "Intensity"]})
...:
In [59]: txt=b"""# Name, Time, Intensity
...: Sample1, 300, 1000, 5
...: Sample2, 300, 1500, 2"""
In [60]:
In [60]: data=np.genfromtxt(txt.splitlines(), dtype=TypeCSV, delimiter=',',skip_header=True)
In [61]: data
Out[61]:
array([('Sample1', 300, (1000, 5)), ('Sample2', 300, (1500, 2))],
dtype=[(('Name', 'name'), '<U32'), (('Time', 'time'), '<i4'), (('Intensity', 'intensity'), [('value', '<i4'), ('error', '<i4')])])

因此它能够获取一个简单的值列表,例如['Sample1', 300, 1000, 5] 并将它们映射到需要保存此数据类型的嵌套元组上:('样本1', 300, (1000, 5))

但是转换器不会将 ['Sample1', '300', '1000+-5'] 转换为 ['Sample1', '300', (1000, 5) ],或者即使确实如此,也不适合后续使用。

错误消息中的

dtype_flat是:

In [70]: np.lib.npyio.flatten_dtype(TypeCSV)
Out[70]: [dtype('<U32'), dtype('int32'), dtype('int32'), dtype('int32')]

因此,您的嵌套数据类型是使用如下序列生成的:

In [75]: rows=np.array(('str',1,2, 3),dtype=[('',_) for _ in np.lib.npyio.flatten_dtype(TypeCSV)])
In [76]: rows.view(TypeCSV)
Out[76]:
array(('str', 1, (2, 3)),
dtype=[(('Name', 'name'), '<U32'), (('Time', 'time'), '<i4'), (('Intensity', 'intensity'), [('value', '<i4'), ('error', '<i4')])])

事实上,在错误行之前有一条对此效果的注释

    if len(dtype_flat) > 1:
# Nested dtype, eg [('a', int), ('b', [('b0', int), ('b1', 'f4')])]
# First, create the array using a flattened dtype:
# [('a', int), ('b1', int), ('b2', float)]
# Then, view the array using the specified dtype.
if 'O' in (_.char for _ in dtype_flat):
...
else:
rows = np.array(data, dtype=[('', _) for _ in dtype_flat])
output = rows.view(dtype)

data 此时是“row”元组的列表,它已经通过转换器传递:

rows = list(
zip(*[[conv._strict_call(_r) for _r in map(itemgetter(i), rows)]
for (i, conv) in enumerate(converters)]))

简化了转换过程

In [84]: converters = [str, int, int, int]
In [85]: row = ['one','1','2','3']
In [86]: [conv(r) for conv, r in zip(converters, row)]
Out[86]: ['one', 1, 2, 3]

但实际上更接近:

In [87]: rows = [row,row]
In [88]: rows
Out[88]: [['one', '1', '2', '3'], ['one', '1', '2', '3']]
In [89]: from operator import itemgetter
In [90]: [[conv(r) for r in map(itemgetter(i), rows)] for (i, conv) in enumerate(converters)]
Out[90]: [['one', 'one'], [1, 1], [2, 2], [3, 3]]
In [91]: list(zip(*_))
Out[91]: [('one', 1, 2, 3), ('one', 1, 2, 3)]

所以总而言之,转换器无法将一列拆分为 2 列或更多列。分割、转换然后映射到数据类型的过程以错误的顺序发生。我在开始时演示的可能很简单 - 通过文本处理行逐行传递文件。它将用指定的分隔符替换 +-。然后该文件将具有适合您的数据类型的正确列数。

关于python - 使用 numpy dtype 和转换器将 csv 列拆分为子列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44144996/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com