python - 如果 header=None，则使用 pandas 确定 csv 文件中的标题-6ren

python - 如果 header=None，则使用 pandas 确定 csv 文件中的标题

转载作者：太空宇宙更新时间：2023-11-04 05:30:51

24

4

有点麻烦，非常感谢您的帮助。尝试验证具有不同 header 结构的不同 csv 文件。例如 type1.csv 有以下内容

COL1|COL2|COL3|COL4
A1|A2|A3|A4
B1|B2|B3|B4
C1|C2|C3|C4
D1|D2|D3|D4

使用 header=None

df = pd.read_csv(type1.csv, sep='|', header=None)

渲染

#     0     1     2     3
0  COL1  COL2  COL3  COL4
1    A1    A2    A3    A4
2    B1    B2    B3    B4
3    C1    C2    C3    C4
4    D1    D2    D3    D4

这很好，因为我可以在索引 0(col1、col2 等)的列轴上发出替换

header = df.columns.values

但是，如果我有另一个具有以下结构的文件 type2.csv

Datetime|timezone|source|unique identifier
Non Header Row Count = 4 |||
COL1|COL2|COL3|COL4
A1|A2|A3|A4
B1|B2|B3|B4
C1|C2|C3|C4
D1|D2|D3|D4

带标题 = 无给我数据框

#                          0         1       2                  3
0                   Datetime  timezone  source  unique identifier
1  Non Header Row Count = 4        NaN     NaN                NaN
2                       COL1      COL2    COL3               COL4
3                         A1        A2      A3                 A4
4                         B1        B2      B3                 B4
5                         C1        C2      C3                 C4
6                         D1        D2      D3                 D4

我想实现的方法是读取一个数据帧，并将 header 设置为无，然后遍历以查找具有任何值 COL1、COL2、COL3 等的行，并将数据帧拆分为高于该索引的值，也许使用head(n) 其中 n 是包含 COL1、COL2 等的行，无论该行上方是什么(我计划将其拆分为一个新的数据框以对内容进行一些分析)

示例分割

#                          0         1       2                  3
0                   Datetime  timezone  source  unique identifier
1  Non Header Row Count = 4        NaN     NaN                NaN

#     0     1     2     3
0  COL1  COL2  COL3  COL4
1    A1    A2    A3    A4
2    B1    B2    B3    B4
3    C1    C2    C3    C4
4    D1    D2    D3    D4

这是否可以使用 isin() 或 isin() 与正则表达式或 query() 的组合来实现？我已经搜索过类似的示例和问题，但无法弄清楚它是否可以正常工作(而且我仍在掌握 pandas 文档)。

我想避免 skiprows，因为我确实希望将数据保留在 COL1、COL2、COL3 行之上以进行数据完整性检查，因此执行预验证步骤读取文件并确定我的标题列位置然后读取它作为一个使用 skiprows 的数据框并不是这里的最佳方法。

如果可以的话，我们将不胜感激。如果问题不清楚或者我在做愚蠢的假设/方法不好，我深表歉意。欢迎任何批评、反馈或建议(建设性的或其他的:))

最佳答案

您可以使用:

import pandas as pd
import io

temp=u"""Datetime|timezone|source|unique identifier
Non Header Row Count = 4 |||
COL1|COL2|COL3|COL4
A1|A2|A3|A4
B1|B2|B3|B4
C1|C2|C3|C4
D1|D2|D3|D4"""
#after testing replace io.StringIO(temp) to filename
df1 = pd.read_csv(io.StringIO(temp), sep="|")
print df1
                    Datetime timezone source unique identifier
0  Non Header Row Count = 4       NaN    NaN               NaN
1                       COL1     COL2   COL3              COL4
2                         A1       A2     A3                A4
3                         B1       B2     B3                B4
4                         C1       C2     C3                C4
5                         D1       D2     D3                D4

df2 = df1[2:]
df2.columns = df1.loc[1,:]
df2 = df2.reset_index(drop=True).rename_axis(None, axis=1)
print df2
  COL1 COL2 COL3 COL4
0   A1   A2   A3   A4
1   B1   B2   B3   B4
2   C1   C2   C3   C4
3   D1   D2   D3   D4

print df1[:1]
                    Datetime timezone source unique identifier
0  Non Header Row Count = 4       NaN    NaN               NaN

编辑:

然后您可以通过contains 在第一列中找到COL1 的索引|与 boolean indexing :

col = df1[df1.iloc[:,0].str.contains('COL1')].index.tolist()[0]
print col
1

df2 = df1[col+1:]
df2.columns = df1.loc[col,:]
df2 = df2.reset_index(drop=True).rename_axis(None, axis=1)
print df2
  COL1 COL2 COL3 COL4
0   A1   A2   A3   A4
1   B1   B2   B3   B4
2   C1   C2   C3   C4
3   D1   D2   D3   D4

print df1[:col]
                    Datetime timezone source unique identifier
0  Non Header Row Count = 4       NaN    NaN               NaN

关于python - 如果 header=None，则使用 pandas 确定 csv 文件中的标题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37206142/

24

4

0

文章推荐： jquery - 如何单独或成组切换单元格颜色

文章推荐： linux - cron 中脚本的相对路径的语法是什么？

文章推荐： jquery - 从某些按钮/输入中排除 jquery ui 样式

html - 标题/标题
我附上了一个我尝试使用 html/css 实现的示例(如果您看不到图像:名字和姓氏，然后第二行是职位描述)。我希望所有文本(两行)在一个 div 中强制对齐(左和右)，但我不确定这是否可能。我尝试了一
html - Div 标题/标题
我想使两个 h1 元素成为 div 上的标题/页眉。所以每个都在特定的 div 之上。 Youtube Achievements
Android EditText 标题(标题)就像在 android 指南中
我想让每个 EditText 对象都有自己的标题，就像 Pure Android 指南中那样 (screenshot) 这个东西有原生支持吗？我想他们也可能会使用带有部分的 ListView ，但这对
swift - UICollectionView 标题 View 类似于表格 View 标题(不是节标题)
是否可以像 UITableView headerView 一样创建 UICollectionView 标题 View ？我的意思是整个集合 View 的标题 View ，而不是每个部分的重复 View
android - Material Design 排版 - 标题、标题、间距、文本外观
我一直在遵循有关排版的 Google 官方 Material 设计指南 (http://www.google.com/design/spec/style/typography.html)，但我发现它们
python - 是否有 Python 库来提取视频元数据，例如 [标题、描述、标题/字幕]？
我目前正在尝试找到可以帮助我从视频文件中提取元数据或信息的 python 库，例如 [ mp4, Mkv, Avi, WebM, mpg ] 格式为例。我主要从视频文件中提取的主要数据是 [标题、描
html - Bootstrap 缩略图 - 中心内容(img + 标题)，标题 float :left
你好，这是我正在尝试做的: 将每个缩略图的内容(img + 标题)居中。我的 img 必须是 span3，标题必须是 span4。这是我的问题: 我可以获取内容中心，或者标题 float 在 im
ios - UINavigationBar 后退按钮在某些设备或模拟器上显示 "Back"标题，在其他设备或模拟器上显示之前的 View Controller 标题
我有一个带有导航栏的应用程序，可以从一个 View Controller 导航到下一个 View Controller 。在某些模拟器和设备上导航到下一个 View Controller 时，后退按钮
sql - t-sql 这是如何工作的？ SELECT @MyList = ISNULL(@MyList ,'') + 标题 + ', ' FROM 标题
我遇到了一些非常酷的 t-sql，可以从一个 t-sql 查询中的选定行生成一个逗号分隔的列值列表: SELECT @MyList = ISNULL(@MyList,'') + Title + ',
HTML 标题
请确保将 HTML heading 标签只用于标题。不要仅仅是为了生成粗体或的文本而使用标题。搜索引擎使用标题为您的网页的结构和内容编制索引。因为用户可以通过标题来快速浏览您的网页，所以用标
每页上的 wkhtmltopdf 标题
我正在使用 wkhtmltopdf 将 html 转换为 pdf。我想在每个页面中添加标题，但它只显示在第一页(目录)中。我使用的命令是 "C:\Program Files\wkhtmltopdf
r - 如何在ggplot2中显示obs的方向(标题)
如何使用 ggplot2 显示观察的方向(标题)？有没有办法调整shape=17 (三角形)以便它“指向”下一次观察？示例代码 library(ggplot2) dat % pivot_wide
macos - 标题&&关闭按钮不显示
我尝试在 cocoa 应用程序中显示/隐藏标题栏。我使用以下代码: if ([window styleMask]==NSResizableWindowMask) { [wind
文本字段上的 JavaScript 标题
我有这样的 HTML 标题 http://s1.postimg.org/4ebyk3qwv/image.png 当我编写这段代码时: document.getElementById("TL85_1_
wordpress - 在Facebook上与视频共享URL不显示描述/标题
我叫麦克。谢谢你的帮助。在Wordpress中，我们已经设计了我们的网站，以便在Facebook调试器中og数据尽可能接近youtube。尽管如此，在Facebook上共享视频的方式还是不同的。尽管
scala - 返回确切的响应/标题？
从 web 应用程序的客户端，我点击了服务器端路由，它只是第三方 API 的包装器。使用分派(dispatch)，我试图让服务器端请求返回 exact header 和第三方 API 对客户端 AJA
scala - 返回确切的响应/标题？
从 web 应用程序的客户端，我点击了服务器端路由，它只是第三方 API 的包装器。使用分派(dispatch)，我试图让服务器端请求返回 exact header 和第三方 API 对客户端 AJA
SAPUI5 - 标题、侧边栏和导航
我是 SAPUI5 的新手，在导航、侧边栏和标题方面遇到一些问题。我想开发一个带有标题和侧边栏的应用程序。我为此使用“ToolPage”。每个页面都包含工具页，如下所示:
go - “标题”注释的目的
我最近在为客户做的项目中被介绍给Go。他们已经建立了代码库，需要进行一些更改。我注意到所有的方法，结构等等都有一些奇怪的类似于标题的注释，如下所示: // SomeType ... type Som
java - ListView 标题
我创建了一个采用整个屏幕布局的标题布局(xml 文件)... 我还创建了一个 listView 并将此 header_layout 添加到 listView 中: LayoutInflater inf

首页

博学

6Ren·AI

商城

python - 如果 header=None，则使用 pandas 确定 csv 文件中的标题