python - Pandas:read.csv() - 只读具有特定列长度的行-6ren

python - Pandas:read.csv() - 只读具有特定列长度的行

转载作者：行者123 更新时间：2023-12-01 09:26:25

26

4

我有大约 5 万行的大型 .csv 文件，其中包含 2,000 列的数据，然后是大约 20 万行，其中包含 6,000 列。

我正在导入多个文件:

pd.concat((pd.read_csv(f,index_col='Unnamed: 0', error_bad_lines=False) for f in file_list))

这可能会在 6,000 列的第一行上给出错误，而它预计只有 2,000 列，或者通过添加 error_bad_lines=False 它会跳过所有 6,000 列行。

在这种情况下，如果有必要，我很乐意丢弃所有 2,000 列行。有什么方法可以用 pandas 做到这一点吗？

最佳答案

正如您所发现的，read_csv 从第一行获取其预期长度，并且仅将过长的行视为“坏”；列太少的行用 NA 填充。根据具体情况，有一些可能适合您的解决方案:

跳过短行。

如果您知道将有多少个 2,000 列的行，特别是如果每个文件都相同，请使用 skiprows 从 6,000 列部分的开头开始阅读。

阅读所有内容，然后删除坏行。

这需要一些努力，因为正如您所发现的，pandas 使用文件的第一行来确定预期字段的数量；您需要添加包含 6,000 列的标题或将正确长度的 names 传递给 read_csv 。这将导致您的 2,000 列行填充大量 NA 值，之后您可以使用 dropna 和适当的阈值来删除包含超过 4,000 个 NA 的行。

事先对文件进行一些预处理

如果这是一次性情况，您只需要处理当前的一组文件，并且将来不会遇到新的文件，并且您可以通过命令行访问文件所在的位置，则它是一行 awk拉出所需长度的线:

awk -F, 'NF==6,000" file.csv > fixed_file.csv

关于python - Pandas:read.csv() - 只读具有特定列长度的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50349287/

26

4

0

文章推荐： Perl 打印哈希数组的数组？

文章推荐： java - 非法 unicode 转义序列值 :\n (0x6E)

文章推荐： java - JAXB 这会导致无限深的XML

Cassandra 读/写性能
我在不同的硬件上测试 Cassandra 已经有一段时间了。首先我有 2 个 CPU 和 6 GB RAM 然后我更改为 16 个 CPU 和 16 GB RAM(其中只有 6 GB 可供我的测试使
lua - 读/写二进制文件
我只是想从二进制文件中读/写。我一直在关注 this教程，它的工作原理......除了它似乎正在将内容写入 txt 文件。我在测试的时候把文件命名为test.bin，但是记事本可以打开并正常显示，所以
java - 读/写导致奇怪的字符
我编写了一些简单的 Java 代码来从文本文件中读取字符串，将它们组合起来，然后将它们写回。 (有关输出没有变化的简化版本，请参见下面的片段) 问题是输入文件和输出文件中的特定字符(- 和 ...)是
Pascal - 读/读函数杂质？
我真的很感兴趣——你为什么要放 readln; 从键盘读取一些值到变量后的行？例如， repeat writeln('Make your choise'); read(CH); if (CH = '1
multithreading - 读/写模块数组的不同元素是线程安全的吗？
只要程序不允许同时写入存储在模块中的共享数据结构的相同元素，它是线程安全的吗？我知道这是一个菜鸟问题，但在任何地方都找不到明确解决的问题。情况如下: 在程序开始时，数据被初始化并存储在模块级可分配数组
multithreading - 读/写同步
我有一个数据结构，其操作可以归类为读取操作(例如查找)和写入操作(例如插入、删除)。这些操作应该同步，以便: 读操作不能在写操作执行时执行(除非在同一线程上)，但是读操作可以与其他读操作并发执行。在
java - 读/写Java套接字流时的澄清
我在Java套接字编程中有几个问题。在读取客户端套接字中的输入流时，如果抛出IO异常；那么我们是否需要重新连接服务器套接字/再次初始化客户端套接字？如果我们关闭输出流，它将关闭客户端套接字吗？如
c - 读/写结构到套接字
我正在尝试从客户端将结构写入带有套接字的服务器。结构是: typedef struct R { int a; int b; double c; double d; double result[4];
azure - 读/写用户属性
我想知道是否可以通过 Javascript 从/向 Azure Active Directory 广告读取/写入数据。我读到 Azure 上有 REST 服务，但主要问题是生成与之通信的 token
Haskell 读/写二进制文件完整工作示例
我希望有人能提供完整的工作代码，允许在 Haskell 中执行以下操作: Read a very large sequence (more than 1 billion elements) of 32
Java 读/写文件
我有一个任务是制作考试模拟器。我的意思是，在老师输入某些科目的分数后，学生输入他的名字、姓氏和出生，然后他决定学生是否通过科目。所以，我有一个问题，如何用新行写入文件文本并通过重写该文件来读取(逐行读
java - 读/写大文件的最简单格式
我需要编写巨大的文件(超过 100 万行)并将文件发送到另一台机器，我需要使用 Java BufferedReader 一次读取一行。我使用的是 indetned Json 格式，但结果不太方便，
java - 读/写数据库错误
我在 Android 应用程序中有一个读写操作。在 onCreate 上，将读取文件并将其显示为编辑文本并且可以进行编辑。当按下保存按钮时，数据将被写入 onCreate 上读取的同一文件中。但我得到
java - 读/写文件不会写入输出
我正在编写一个程序，该程序从一个文件读取输入，然后该程序将格式化数据并将其写入另一个文件。输入文件: Christopher kardaras,10 N Brainard,Naperville,IL
java - 读/写效率
我有一个 SCALA(+ JAVA) 代码，它以一定的速率读写。分析可以告诉我代码中每个方法的执行时间。如何衡量我的程序是否达到了最大效率？为了使我的代码优化，以便它以给定配置可能的最大速度读取。我知
java - 读/写项目文件夹中的文件
嗨，我想知道如何访问 java/maven 中项目文件夹中的文件，我考虑过使用 src/main/resources，但有人告诉我，写入此目录中的文件是一个坏主意，并且应该只在项目的配置中使用，所以我
c# - 读\写结构化二进制文件
我想读\写一个具有以下结构的二进制文件: 该文件由“RECORDS”组成。每个“RECORD”具有以下结构:我将以第一条记录为例 (红色)起始字节:0x5A(始终为 1 字节，固定值 0x5A) (绿
C - 读/写具有动态名称的文件
我想制作一个C程序，它将用一些参数来调用；每个参数将代表一个文件名，我想在每个参数中写一些东西。 FILE * h0; h0 = fopen(argv[0],"w"); char buff
C 读、写和操作文件
我有一个包含团队详细信息的文件。我需要代码来读取文件，并将获胜百分比写入第二个文件。我还需要使用指示的搜索功能来搜索团队的具体信息。该代码未写入百分比文件。当菜单显示时，第一个文件的内容被打印，但代码
C - 读()和写()
我正在使用 read() 和 write() 函数来处理我的类，并且我正在尝试使用一个函数来写入它所读取的内容以及我作为参数给出的前面的内容。例如，我想给出 10 作为我的程序的参数 int mai

首页

博学

6Ren·AI

商城

python - Pandas:read.csv() - 只读具有特定列长度的行