python - 使用 pandas.read_csv 分隔列-6ren

python - 使用 pandas.read_csv 分隔列

转载作者：行者123 更新时间：2023-12-01 03:57:28

25

4

我正在尝试将一个较大的 .txt 文件中的一个表读入 python 中。

数据摘录如下:

2 Network magnitudes:
    MLv       2.05 +/- 1.34   7            
    M         2.05            7 preferred  

7 Phase arrivals:
    sta  net   dist azi  phase   time         res     wt  sta
    BMOR  EC    0.0 226  P       00:22:31.385  -0.6 M  1.0  BMOR 
    BREF  EC    0.0 347  P       00:22:31.543  -0.5 M  1.0  BREF 
    BTAM  EC    0.0  58  P       00:22:31.796  -0.3 M  1.0  BTAM 
    BVC2  EC    0.0  26  P       00:22:33.061   0.8 M  1.0  BVC2 
    BNAS  EC    0.1 294  P       00:22:32.871  -0.1 M  1.0  BNAS 
    SUCR  EC    0.1 314  P       00:22:34.610   0.6 M  1.0  SUCR 
    BRRN  EC    0.1 207  P       00:22:34.768   0.4 M  1.0  BRRN 

7 Station magnitudes:
    sta  net   dist azi  type   value   res        amp per
    BMOR  EC    0.0 226  MLv     1.48 -0.57    1.20076

我只想要阶段到达表，因此 np.loadtext 和 np.genfromtxt 由于各种原因都达不到要求(无法处理数字和字符串/包含a bug 除非您仅指定一个空格 (' ') 分隔符，我在这里不能这样做)

我一直在尝试使用 pandas.read_csv 函数，但它无法识别分隔符

a = pd.read_csv(datafileloc, sep='\+s', skiprows=5, skipfooter=3)

产生:

a
Out[90]: 
  sta  net   dist azi  phase   time         res     wt  sta
0  BMOR  EC    0.0 226  P       00:22:31.385  -0....       
1  BREF  EC    0.0 347  P       00:22:31.543  -0....       
2  BTAM  EC    0.0  58  P       00:22:31.796  -0....       
3  BVC2  EC    0.0  26  P       00:22:33.061   0....       
4  BNAS  EC    0.1 294  P       00:22:32.871  -0....       
5  SUCR  EC    0.1 314  P       00:22:34.610   0....       
6  BRRN  EC    0.1 207  P       00:22:34.768   0....

除了它们都是一个字符串并且没有注意空格分隔符之外，它看起来不错:

a.values
Out[89]: 
array([['BMOR  EC    0.0 226  P       00:22:31.385  -0.6 M  1.0  BMOR'],
       ['BREF  EC    0.0 347  P       00:22:31.543  -0.5 M  1.0  BREF'],
       ['BTAM  EC    0.0  58  P       00:22:31.796  -0.3 M  1.0  BTAM'],
       ['BVC2  EC    0.0  26  P       00:22:33.061   0.8 M  1.0  BVC2'],
       ['BNAS  EC    0.1 294  P       00:22:32.871  -0.1 M  1.0  BNAS'],
       ['SUCR  EC    0.1 314  P       00:22:34.610   0.6 M  1.0  SUCR'],
       ['BRRN  EC    0.1 207  P       00:22:34.768   0.4 M  1.0  BRRN']], dtype=object)

可以使用 list(a.values[0])[0].split() 分隔行，但这需要重新组织才能获得各个列。我想让 pandas.read_csv 认识到它们是分开的，这样我就可以提取各个列(一旦我扩大规模，相当高效就变得很重要)

我哪里出错了？

最佳答案

正如 DSM 所指出的，这是分隔符中的拼写错误:

\s+，而不是 \+s

来自 the documentation 中的拼写错误，在 delim_whitespace 参数标题下。

关于python - 使用 pandas.read_csv 分隔列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37199334/

25

4

0

文章推荐： javascript - Angular2 - 谷歌地图 -drawingManager 未定义

文章推荐： wpf - 我可以让 WPF 样式优先于本地值吗？

文章推荐： Javascript MaxLength 与 contenteditable

文章推荐： python - 如何以函数式风格对数据框执行复杂的索引查询

python - Dask read_csv-- 在 `pd.read_csv`/`pd.read_table` 中发现不匹配的 dtypes
我正在尝试使用 dask 读取 csv 文件，它给了我如下错误。但问题是我想要我的 ARTICLE_ID是 object(string) .谁能帮我成功读取数据？回溯如下: ValueError:
pandas read_csv() 用于多个分隔符
我有一个文件，其中包含如下数据 1000000 183:0.6673;2:0.3535;359:0.304;363:0.1835 1000001 92:1.0 1000002 112:1.0 1000
r - read_csv() 使用随机数做什么？
我刚刚注意到 read_csv()以某种方式使用了意外的随机数(至少对我而言)。对应的基R函数read.csv()不这样做。那么，read_csv() 是什么意思？使用随机数？我查看了文档，但找不到明
pandas:read_csv 将日期时间列组合为数据帧的索引
我有一个 csv 文件，其中包含日期和时间戳作为两列。我正在使用 Pandas read_csv将内容读入数据帧。我的最终目标是根据数据绘制时间序列图。 !head vmstat.csv wait_p
read_csv() 解析错误信息，如何解释？
我正在解析大量 csv 数据。数据相当“脏”，因为我有不一致的分隔符、虚假字符和格式问题，这些问题会导致出现问题。 read_csv() . 然而，我的问题不是数据的肮脏，而是试图理解的解析错误。
python - read_csv 多索引数据帧
我有以下 csv: value value value value ... id 1 1 1
python - 当你只知道部分文件名时 Read_csv
我无法读取仅知道部分文件名的 csv 文件。这是我所做的，但出现错误: "pandas.errors.ParserError: Error tokenizing data." What should
python - read_csv 读取分类值？
我想知道是否有办法在 read_csv() 过程中读取分类值。通常您可以在事后进行转换，例如: df.zone = df.zone.astype('category') 此时 df 占用了更多内存，
python - read_csv 获取发生异常的行
我尝试用 pandas 分析的 HTTP 日志文件有时会有意外的行。这是我加载数据的方式: df = pd.read_csv('mylog.log', sep=r'\s(?=(
python - 带有正则表达式的 read_csv
csv 数据示例: 2019-08-15 00:00:06,430 0:0 - {"info":{"name":"LTD - PUBLIC"}} pd.read_csv(filepath, sep=
python - read_csv 列编码
我对 python 很陌生。我正在尝试使用 python 自动执行一些建筑能耗数据的数据分析。我正在使用 python 2.7.3、pandas 0.12、Canopy with qtconsole
python - read_csv 导入困难
我有一个 csv 文件，格式如下: 0;2017-02-16 15:08:16;81,307877;;;;;;; 因此，分号作为分隔符，日期和时间以及带小数点逗号的 float 。最后是一堆分号。 P
python - read_csv 没有正确读取此文件上的列名？
我有一个 csv 文件如下: 0 5 1 10 2 15 3 20 4 25 我想将其保存为名称为 x,y 轴的数据框，然后绘制它。但是，当我分配 x,y 时，我得到了一个困惑的 DataFrame，
python中pandas.read_csv()函数的深入讲解
这里将更新最新的最全面的read_csv()函数功能以及参数介绍，参考资料来源于官网。 pandas库简介官方网站里详细说明了pandas库的安装以及使用方法，在这里获取最新的pandas库信
解决pandas read_csv 读取中文列标题文件报错的问题
从windows操作系统本地读取csv文件报错 ? 1
快速解决pandas.read_csv()乱码的问题
pandas.read_csv()遇到读进来乱码问题 1.设置encoding='gbk'或者encoding='utf-8'。pandas.read_csv('data.csv',encodin
python - 将转换器与 read_csv 一起使用时获取错误行
我有一个包含日期、国家/地区(只能在预定义列表中取值)等信息的 csv 文件，我目前正在使用 converters 参数来进行一些完整性检查，如下所示: import pandas as pd def
Python Pandas read_csv 到没有分隔符的数据框
我是 Pandas 库的新手。我共享了基于数据框的代码。有没有办法在没有任何定界符的情况下逐行读取 gzip 文件(使用整行，该行可以包含逗号和其他字符)作为单行并在数据框中使用它？似乎你必须提供
python - Pandas read_csv 处理给定数字数据类型的带引号字符串
我正在有效地尝试将以下文件读入 DataFrame 并再次将其原封不动地写出。 F1,F2,F3,F4,F5 "blah","blah",123,"123","123" "blue","blue",4
csv - 未知列的 read_csv 转换器
我正在尝试读取一个在每个单元格中包含多个值的 csv 文件，并且我想将它们编码为单个 int 格式的字节以存储在 Pandas 单元格中，(例如 (1, 1) -> 771)。为此，我想使用 read

首页

博学

6Ren·AI

商城

python - 使用 pandas.read_csv 分隔列