python - 使用 numpy dtype 和转换器将 csv 列拆分为子列-6ren

python - 使用 numpy dtype 和转换器将 csv 列拆分为子列

转载作者：太空宇宙更新时间：2023-11-03 15:12:03

25

4

我有一个 csv 文件，其中一些列包含测量值(包括错误值)。我想使用 numpy genfromtxt 将所有内容导入到 python 中，并使用 dtype 格式化我的数组。假设我有一个以下格式的 csv 文件:

# Name, Time, Intensity
Sample1, 300, 1000+-5
Sample2, 300, 1500+-2

我想解析整个文件，并将值和不确定性拆分为强度列的两个子列。我定义了两种数据类型:

import numpy as np
TypeValErr = np.dtype([("value", np.int32), ("error", np.int32)])
TypeCSV=np.dtype({"names": ["name", "time", "intensity"],
                  "formats": ["U32", np.int32, TypeValErr],
                  "titles": ["Name", "Time", "Intensity"]})

使用这个数据类型，我首先自己创建一个测试数组:

Intensity = np.array([(2000, 12)], dtype=TypeValErr)
CSVentry = np.array([("Sample3", 300, Intensity)], dtype=TypeCSV)

print(CSVentry)

这给了我预期的输出

[('Sample3', 300, (2000, 12))]

在下一步中，我想使用此数据类型导入 CSV。由于强度列的格式错误，我想使用转换器将输出转换为正确的格式:

def convertToValErrArr(txt):
    splitted = txt.split("+-")
    return np.array([(splitted[0], splitted[1])], dtype=TypeValErr)

print(np.array([("Sample3", 300, convertToValErrArr("1800+-7"))], dtype=TypeCSV))

输出再次给出了预期

[('Sample3', 300, (1800, 7))]

但最后，导入本身会引发错误。这是我的代码:

ConvertFunc = lambda x: convertToValErrArr(x)

file = np.genfromtxt("test.csv",
                     delimiter=",",
                     autostrip=True,
                     dtype=TypeCSV,
                     skip_header=1,
                     converters={2: lambda x: convertToValErrArr(str(x))})

这是我的错误:

Traceback (most recent call last):
  File "csvimport.py", line 28, in <module>
    converters={2: lambda x: convertToValErrArr(str(x))})
  File "/usr/lib/python3.6/site-packages/numpy/lib/npyio.py", line 1896, in genfromtxt
    rows = np.array(data, dtype=[('', _) for _ in dtype_flat])
ValueError: size of tuple must match number of fields.

我没有看到错误。 genfromtxt 是否以不同的方式处理数据？我希望有人有想法!非常感谢。

最佳答案

使用您的数据类型和 4 列，它可以工作(嵌套数据类型和所有数据类型)

In [58]: TypeValErr = np.dtype([("value", np.int32), ("error", np.int32)])
    ...: TypeCSV=np.dtype({"names": ["name", "time", "intensity"],
    ...:                   "formats": ["U32", np.int32, TypeValErr],
    ...:                   "titles": ["Name", "Time", "Intensity"]})
    ...: 
In [59]: txt=b"""# Name, Time, Intensity
    ...: Sample1, 300, 1000, 5
    ...: Sample2, 300, 1500, 2"""
In [60]: 
In [60]: data=np.genfromtxt(txt.splitlines(), dtype=TypeCSV, delimiter=',',skip_header=True)
In [61]: data
Out[61]: 
array([('Sample1', 300, (1000, 5)), ('Sample2', 300, (1500, 2))], 
      dtype=[(('Name', 'name'), '<U32'), (('Time', 'time'), '<i4'), (('Intensity', 'intensity'), [('value', '<i4'), ('error', '<i4')])])

因此它能够获取一个简单的值列表，例如['Sample1', 300, 1000, 5] 并将它们映射到需要保存此数据类型的嵌套元组上:('样本1', 300, (1000, 5))。

但是转换器不会将 ['Sample1', '300', '1000+-5'] 转换为 ['Sample1', '300', (1000, 5) ]，或者即使确实如此，也不适合后续使用。

错误消息中的

dtype_flat是:

In [70]: np.lib.npyio.flatten_dtype(TypeCSV)
Out[70]: [dtype('<U32'), dtype('int32'), dtype('int32'), dtype('int32')]

因此，您的嵌套数据类型是使用如下序列生成的:

In [75]: rows=np.array(('str',1,2, 3),dtype=[('',_) for _ in np.lib.npyio.flatten_dtype(TypeCSV)])
In [76]: rows.view(TypeCSV)
Out[76]: 
array(('str', 1, (2, 3)), 
      dtype=[(('Name', 'name'), '<U32'), (('Time', 'time'), '<i4'), (('Intensity', 'intensity'), [('value', '<i4'), ('error', '<i4')])])

事实上，在错误行之前有一条对此效果的注释

    if len(dtype_flat) > 1:
        # Nested dtype, eg [('a', int), ('b', [('b0', int), ('b1', 'f4')])]
        # First, create the array using a flattened dtype:
        # [('a', int), ('b1', int), ('b2', float)]
        # Then, view the array using the specified dtype.
        if 'O' in (_.char for _ in dtype_flat):
        ...
        else:
            rows = np.array(data, dtype=[('', _) for _ in dtype_flat])
            output = rows.view(dtype)

data 此时是“row”元组的列表，它已经通过转换器传递:

rows = list(
        zip(*[[conv._strict_call(_r) for _r in map(itemgetter(i), rows)]
              for (i, conv) in enumerate(converters)]))

简化了转换过程

In [84]: converters = [str, int, int, int]
In [85]: row = ['one','1','2','3']
In [86]: [conv(r) for conv, r in zip(converters, row)]
Out[86]: ['one', 1, 2, 3]

但实际上更接近:

In [87]: rows = [row,row]
In [88]: rows
Out[88]: [['one', '1', '2', '3'], ['one', '1', '2', '3']]
In [89]: from operator import itemgetter
In [90]: [[conv(r) for r in map(itemgetter(i), rows)] for (i, conv) in enumerate(converters)]
Out[90]: [['one', 'one'], [1, 1], [2, 2], [3, 3]]
In [91]: list(zip(*_))
Out[91]: [('one', 1, 2, 3), ('one', 1, 2, 3)]

所以总而言之，转换器无法将一列拆分为 2 列或更多列。分割、转换然后映射到数据类型的过程以错误的顺序发生。我在开始时演示的可能很简单 - 通过文本处理行逐行传递文件。它将用指定的分隔符替换 +-。然后该文件将具有适合您的数据类型的正确列数。

关于python - 使用 numpy dtype 和转换器将 csv 列拆分为子列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44144996/

25

4

0

文章推荐： python - CESS_ESP 标签的定义

文章推荐： python - inotify 使用fusepy创建通知

文章推荐： python - 大于 MTU 的数据包到达 TUN 接口(interface)

文章推荐： python - Bokeh - 显示带有分类范围的箭头

JavaScript 转换器
我在完成这个用于转换咖啡价格的 JavaScript 时遇到问题。我下载了一个调试器，它一直告诉我价格未定义，我不明白。这是脚本。 Coffee House
非持久化实体的 JSF 转换器
我有一个使用以下方法的 JSF 转换器: @Override public Object getAsObject(FacesContext context, UIComponent compo
audio - 免费的声音编辑器/转换器？
我正在寻找类似paint.net 或Gimp 的东西，但对于音频文件，并在Windows 上运行。最佳答案 Audacity太棒了关于audio - 免费的声音编辑器/转换器？，我们在Stack
Java 转换器 setOutputProperty()
我目前正在使用以下代码来缩进 XML: transformer.setOutputProperty(OutputKeys.INDENT, "yes"); transformer.setOutputPr
java - JSF 转换器
我收到以下错误:Conversion Error setting value 'home' for 'null Converter'. Home是所显示内容的字符串表示形式。对我来说，这没有意义。这
具有不同十进制数的 wpf 转换器
我的 UI 中有很多数字要处理。我希望它们中的一些没有小数位，一些是小数点后 2 位，而另一些是小数点后(3 位或 4 位小数)。我有一个名为 DoubleToStringConverter 的转换
Python 转换器 - 我卡住了
我正在制作一个货币转换器。转换器需要一个最小范围和最大范围，如果货币值高于或低于这些范围，转换器将要求您更改范围以能够转换货币。例如，如果用户将范围设置在 min-range 3 和 max-rang
java - 动态注册命令的参数解析/转换器
我正在使用 Spring Shell 2 CLI，并尝试通过反射在运行时从定义的接口(interface)生成命令。更新:接口(interface)的实现也是在运行时生成的。我正在使用 Confi
java - 将参数传递给 jpa 转换器
我正在尝试编写一个通用的 Converter 以在我的代码中的多个类似情况下使用。我有一组子类，我只想使用一个 Converter 来处理，所以我想将一些东西(类类型/一些参数/等)传递给 Conve
csv - 未知列的 read_csv 转换器
我正在尝试读取一个在每个单元格中包含多个值的 csv 文件，并且我想将它们编码为单个 int 格式的字节以存储在 Pandas 单元格中，(例如 (1, 1) -> 771)。为此，我想使用 read
c# - 不同命名空间中的 XAML 转换器
我正在 VC2013 中开发一个 c# Windows Phone 8.1 应用程序，并偶然发现了一个奇怪的问题。为了使我的代码更“干净”，我决定将应用程序的不同部分放入不同的文件夹中。在 c# 代
converter - puppet Chef 转换器
是否有将 Puppet 脚本转换为 Chef 的转换器？我找到了将 Chef 脚本转换为 Puppet 的 ruby 脚本 https://github.com/relistan/chef2pu
spring - 自定义 Cassandra 转换器
我已经开始寻找很好的解决方案，如何使用 Spring CassandraOperations 很好地持久化实体。问题开始是因为我的实体中的某些字段不受 cassandra 支持，例如乔达日期时间。解
javascript - 是否有有效的数组 monad 转换器？
我知道如何实现单链表 monad 转换器，但无法运行其对应的数组。问题是存在分组效应，这使得转换器仅对可交换基 monad 有效。这是一个示例，为了简单起见，转换器和基础 monad 都是数组，并且没
wpf - 使用资源作为转换导致绑定(bind)转换器
当我尝试将值转换器从定义的枚举状态绑定(bind)到刷子时，我的 XAML 设计器中出现错误: 未找到“OKStatus”资源。该应用程序在运行时运行良好，但我无法在设计器中看到我的 GUI。我的
haskell - 列出单子(monad)转换器
我需要使用列表单子(monad)变压器。我读到 ListT IO 存在潜在问题来自 Control.Monad.List , 自 IO不是可交换的，所以我在看 ListT done right .但我
sql - 序言到 SQL 转换器
不用多想，在我看来，一大组 Prolog 的功能可以实现为关系演算(a.k.a. SQL)。有没有人听说过任何工具可以自动将 Prolog 转换为 SQL？最佳答案推荐: https://www
R 十六进制到 RGB 转换器
假设我在十六进制值(包括 alpha)中有这种颜色: x [1] "255 36 0" 但是，查看您请求的结果，您似乎在 x 中将 alpha 值作为第一个十六进制数。 - 所以你需要创建一个子字符
haskell - 用于进度跟踪的 Monad 转换器
我正在寻找可用于跟踪程序进度的 monad 转换器。要解释如何使用它，请考虑以下代码: procedure :: ProgressT IO () procedure = task "Print som
nHibernate 连接多个表并使用 AliasToBean 转换器
我有一个非常基本的需求，即从数据库中获取一些数据并返回一个 DTO。我发现使用 nHibernate 连接多个表和“投影”可以说，到 DTO 是相当多的代码。在查看了几个示例后，大多数示例都不起作用，

首页

博学

6Ren·AI

商城

python - 使用 numpy dtype 和转换器将 csv 列拆分为子列