python - genfromtxt 创建元组的一维数组而不是二维数组-6ren

python - genfromtxt 创建元组的一维数组而不是二维数组

转载作者：太空宇宙更新时间：2023-11-04 01:07:36

25

4

我正在尝试使用 scikit-learn 进行一些分类。但是，我在开始工作和导入数据时遇到了麻烦。

我正在处理这些数据:Adult Data Set .

我是 numpy 和 scikit-learn 的新手，所以我开始关注 this tutorial ，它使用 Wine dataset .

我遇到的问题是数据是作为元组的一维数组而不是二维数组导入的。还有丢失的数据，由 ? 指示。

我的数据集并不完全是数字的。有很多字符串。我读了genfromtxt doc ，其中包含如何处理混合类型数据集的示例。 (可能有比我在下面使用的更好的方法来解决这个问题吗？)

这是我的代码:

import numpy as np

all_data = np.genfromtxt(open("./adult.data","r"), dtype=[ 
                      ('age', 'i4'),
                      ('workclass', 'S16'),
                      ('fnlwgt', 'i8'),
                      ('education', 'S12'),
                      ('education_num', 'i4'),
                      ('marital_status', 'S22'),
                      ('occupation', 'S17'),
                      ('relationship', 'S14'),
                      ('race', 'S18'),
                      ('sex', 'S6'),
                      ('capital_gain', 'i8'),
                      ('capital_loss', 'i8'),
                      ('hours_per_week', 'i4'),
                      ('native_country', 'S26'),
                      ('income', 'S5')
                      ],
                      delimiter=",", autostrip=True,
                      missing_values=('?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?'))

# load class labels from column 15
y_adult_labels = all_data['income']

# load the 14 features
X_adult = all_data[:][0:-1]

这是创建一个元组的一维数组，其中每个元组是原始 CSV 数据文件中的一行。

为什么这不是创建一个二维数组？ (对于初学者，像这样的 all_data[:,1:] 会给出一个 IndexError: too many indices for array。)

我最终想:

将字符串数据映射到数值(不知何故......也许在 genfromtxt 调用中使用 converters？
处理二维数组(例如 PCA)

最佳答案

二维数组必须在所有单元格中具有相同类型的内容。但是根据您自己的规范(dtype)，您正在加载数字和字符串的混合。

这是一种不同类型的二维数组，一种结构化数组。您按数字索引“行”，按名称索引“列”，例如all_data['收入']。这些“元组”(不是真正的元组，但它们以这种方式显示)是相当于二维数组行的结构化数组。

如果您确实必须按编号访问字段，则从 dtype.names 列表中索引名称。

阅读结构化(有时称为记录)数组。

为什么 genfromtxt 返回一维数组的问题已经被问过很多次了。

至于向纯数值数据的转换，我认为你将不得不逐列(字段)地工作。制作另一个数组 newdata=np.empty((n,15),dtype=int)。采用 all_data['workclass']，将字符串映射到数字，并将它们分配给 newdata[:,1]=... 等。没有魔法或捷径。

关于python - genfromtxt 创建元组的一维数组而不是二维数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29597295/

25

4

0

文章推荐： python - 遍历列表列表并保存不同的文件

文章推荐： javascript - 在 Node 中上传文件的管道与缓冲

文章推荐： javascript - Nodejs/Expressjs JavaScript : get where request came from

文章推荐： C数据结构如何声明

python - Genfromtxt 文件名
我正在尝试读取以字符串形式存储在数据文件中的文件名。那里没问题。如果我将它传递给 genfromtxt，我会收到错误“IOError:Z:\Python\Rb input.txt not found”
Python genfromtxt 文件路径
我对 numpy.genfromtxt 函数有一个非常基本的问题。我正在使用 Enthought Canopy 包:我应该在哪里保存我想使用的 file.txt，或者我应该如何告诉 Python 在哪
Python genfromtxt 多种数据类型
我想使用 genfromtxt 读取一个 csv 文件。我有六列是 float ，一列是字符串。如何设置数据类型，以便将 float 列作为 float 读入，将 string 列作为字符串读入？我
python - genfromtxt 加载排列成行的数据
我有以下格式的数据 csv 文件: 130, 706, 249, 627, 428, 767, 430, 63, 884, 593 964, 340, 848, 607, 142, 517, 294
python - genfromtxt 创建元组的一维数组而不是二维数组
我正在尝试使用 scikit-learn 进行一些分类。但是，我在开始工作和导入数据时遇到了麻烦。我正在处理这些数据:Adult Data Set . 我是 numpy 和 scikit-learn
python - 在单个文件上使用多个 genfromtxt
我是 Python 的新手，目前在处理我的输入文件读取时遇到问题。基本上我希望我的代码采用一个输入文件，其中相关信息包含在 4 行的 block 中。对于我的特定目的，我只关心每个 block 的第
numpy - 跳过 genfromtxt 中的行
我有下表: 2M00251602+5422547 7.180 9.000 2.200 #2M00255540+5749320
python - 内存错误 : numpy. genfromtxt()
我有一个 50,000x5,000 矩阵(浮点)文件。当使用 x = np.genfromtxt(readFrom, dtype=float) 将文件加载到内存中时，我收到以下错误消息: File "
python - 使用 genfromtxt 加载数据时如何替换值
我想知道当从具有多列的给定 (csv) 文件加载数据时如何替换特定值，结合字符串和数值。在下面的示例中，假设您有多个地理位置，具有已知的纬度和经度以及一组特定的属性 (P1-P5) 和一个类(仅包含
python - 强制 genfromtxt 输出为无向量
在只加载一列数据的情况下，有没有办法强制 genfromtxt 输出形状为:(xx, 1) 的数据？通常的形状是(xx，)。我的示例中的 xx 可以是任何整数。更新:这是代码示例: import n
python - np.genfromtxt 不会生成二维数组
我有一个 csv 文件，其中包含: 0812,EP2463,R,FEIGE 0812,EP2466,R,FEIGE 0816,EP2462,R,FEIGE 0816,EP2460,R,FEIGE 我需
python - numpy.genfromtxt 没有解包
我的包 numpy.genfromtxt 有一个奇怪的问题.我用它来读取包含多个列(可用 here )的数据文件，但即使 unpack 设置为 True，这些文件也不会被解压。这是一个MWE: im
python - 使用 "genfromtxt"提取列
在问这个问题之前我已经阅读了这两个问题( q1 和 q2 )但是我没有找到任何令人满意的答案我需要从二维数组中提取两列，而不是使用 pandas 或 loadtxt，而是使用 genfromtxt
Python:numpy.genfromtxt - 需要包含无效字符的列名
我正在使用 numpy.genfromtxt 导入 CSV 文件。要导入的数据有一个列名的标题，其中一些列名包含 genfromtxt 认为无效的字符。具体来说，一些名称包含“#”和“”。输入数据无
python - np.genfromtxt 多个分隔符？
我的文件是这样的: 1497484825;34425;-4,28,-14;-4,28,-14;-4,28,-14;-4,28,-14;-4,28,-14;-4,28,-14 1497484837;34
python - 使用 genfromtxt 拆分数据
使用 Python，我使用 genfromtxt(来自 numpy)将文本文件读入数组: y = np.genfromtxt("1400list.txt", dtype=[('mystring','S
python - numpy.genfromtxt 错误地解析带有转义字符的列名
我正在使用以下代码从 CSV 文件中读取大量数据 data = np.genfromtxt(inputfile.name, delimiter=',', dtype=float, names=True
python - numpy.genfromtxt()，skiprows和skip_header有什么区别？
我以为 genfromtxt() 会跳过 skip_header+skiprows，但事实并非如此。如果 skiprows 处于事件状态，则忽略 skip_header。它们有什么区别？最佳答案
python - Numpy genfromtxt 遍历列
我正在使用 NumPy 的 genfromtext 从 CSV 文件中获取列。每一列都需要拆分并分配给单独的 SQLAlchemy SystemRecord 与其他一些列和属性结合并添加到数据库中。
python - 跳过 genfromtxt 中缺失值的行
如何加载 csv。当至少一个单元格为空时，将文件放入一个跳过行的数组中？我的 csv 文件很大(超过 1000 行和 14 列): 1;4;3 ;1;3 ;;6 3;4;7 我想跳过第 2 行和第 3

首页

博学

6Ren·AI

商城

python - genfromtxt 创建元组的一维数组而不是二维数组