返回比 Linux `wc -l` 高得多的行数的 Python 代码-6ren

返回比 Linux `wc -l` 高得多的行数的 Python 代码

转载作者：塔克拉玛干更新时间：2023-11-03 00:54:10

26

4

当我在 Linux 中对一个文件(一个几百万行的 CSV 文件)执行 wc -l 时，它报告的行数低于此 Python 代码显示的行数(简单地迭代超过文件中的行)超过一千。那会是什么原因呢？

with open(csv) as csv_lines:
    num_lines = 0
    for line in csv_lines:
        num_lines += 1
    print(num_lines)

我遇到过 wc 报告比上面少一个的情况，这在文件没有终止换行符的情况下是有意义的，因为它看起来像 wc计算完整行(包括终止换行符)，而此代码仅计算任何行。但是相差一千多行会怎样呢？

我不太了解行尾之类的东西，所以也许我误解了 wc 和这个 Python 代码是如何计算行数的，所以也许有人可以澄清一下。在 linux lines counting not working with python code它说 wc 通过计算文件中 \n 字符的数量来工作。但是，这段 Python 代码到底在做什么？

有没有一种方法可以调和数字上的差异，从而找出究竟是什么原因造成的？就像一种从 Python 计算行数的方法，其计数方式与 wc 相同。

该文件可能是在与 Linux 不同的平台上生成的，不确定这是否相关。

最佳答案

由于您使用的是 print(num_lines)我假设您使用的是 Python 3.x，我以 Python 3.4.2 为例。

行数不同的原因在于 open(<name>) 打开的文件两者都算 \r和 \n字符作为单独的行以及\r\n组合( docs ，通用换行符 部分)。这导致以下情况:

>>> with open('test', 'w') as f:
        f.write('\r\r\r\r')

>>> with open('test') as f:
        print(sum(1 for _ in f))
4

同时 wc -l给出:

$ wc -l test
0 test

\r字符在旧的 Macintosh 系统中用作换行符。

如果您只想在 \n 上拆分字符，使用 newline open 的关键字参数:

>>> with open('test', 'w') as f:
        f.write('\r\r\r\r')

>>> with open('test', newline='\n') as f:
        print(sum(1 for _ in f))
1

1来自你已经提到的事实。没有一个\n文件中的字符所以 wc -l返回 0，Python 将其计为一行。

关于返回比 Linux `wc -l` 高得多的行数的 Python 代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27998980/

26

4

0

文章推荐： c++ - 清理遗留代码 "header spaghetti"

文章推荐： android - 在 Android 中的三个 Activity 之间传递包

文章推荐： c++ - vector <字符串> 或 vector <字符 *>？

文章推荐： linux - 连接到远程网络上的 Raspberry Pi(XFinity 路由器)

php - 返回 1 返回 0 VS 返回 true 返回 false
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
php - 什么更快？如果()返回；否则返回；或者如果()返回；返回;
在编码时，我问了自己这个问题: 这样更快吗: if(false) return true; else return false; 比这个？ if(false) return true; return
javascript - 以逻辑运算符返回(&& 返回、|| 返回)
如何在逻辑条件下进行“返回”？在这样的情况下这会很有用 checkConfig() || return false; var iNeedThis=doSomething() || return fa
正则表达式 - 如果第一个数字是 1 返回 1 但如果它是 145 返回 145 但如果它的 133 返回 133
这是我的正则表达式 demo 如问题所述: 如果第一个数字是 1 则返回 1 但如果是 145 则返回 145 但如果是 133 则返回 133 样本数据a: K'8134567 K'81345678
c - 返回-返回!在 C
在代码高尔夫问答部分查看谜题和答案时，我遇到了 this solution返回 1 的最长和最晦涩的方法引用答案， int foo(void) { return! 0; } int bar(
java - springboot 返回 responseentity 返回 JSON
我想在下面返回 JSON。 { "name": "jackie" } postman 给我错误。说明 Unexpected 'n' 这里是 Spring Boot 的新手。 1日龄。有没有正确的方法来
python "is"返回 True 但 "=="返回 False
只要“is”返回 True，“==”不应该返回 True 吗？ In [101]: np.NAN is np.nan is np.NaN Out[101]: True In [102]: np.NAN
Mysql 返回 1 如果找到或根本不存在值，如果存在其他值，返回 0
我需要获取所有在 6 号或 7 号房间或根本不在任何房间的学生的详细信息。如果他们在其他房间，简单地说，我不希望有那个记录。我的架构是: students(roll_no, name,class,.
javascript - ajax 返回 true，但 == 返回 false
我有一个表单，我将它发送到 php 以通过 ajax 插入到 mysql 数据库中。一切顺利，php 返回 "true" 值，但在 ajax 中它显示 false 消息。在这里你可以查看php代码:
android - Kotlin 中的奇怪值比较问题， "==="返回 true 但 "=="返回 false
我在 Kotlin 中遇到了一个非常奇怪的无法解释的值比较问题，以下代码打印假 data class Foo ( val a: Byte ) fun main() { val NUM
angular - testability.whenStable() 返回， testability.isStable() 返回 false
请注意，这并非特定于 Protractor。问题在于 Angular 2 的内置 Testability service Protractor 碰巧使用。 Protractor 调用 Testabil
vba - CountA 返回 0，WorksheetFunction.CountA 返回 1
在调试窗口中，以下表达式均返回 1。 Application.WorksheetFunction.CountA(Cells(4 + (i - 1) * rows_per_record, 28) & "
json - OPTIONS 返回 204，POST 返回 200 但数据库中没有输入数据
我在本地使用 jsonplaceholder ( http://jsonplaceholder.typicode.com/)。我正在通过 extjs rest 代理测试我的 GET 和 POST 调用
c# - Restsharp 返回 403 而 Postman 返回 200
这是 Postman 为成功调用我的页面而提供的(修改后的)代码段。 var client = new RestClient("http://sub.example.com/wp-json/wp/v2
php - Mysqli_query 返回 false 而 Mysqli_error 返回 NULL？
这个问题在这里已经有了答案: What to do with mysqli problems? Errors like mysqli_fetch_array(): Argument #1 must
c - Argc 返回 1，argv 返回 NULL，尽管输入了命令行参数
我想我对 C 命令行参数有点生疏。我查看了我的一些旧代码，但无论这个版本是什么，都会出现段错误。运行方式是 ./foo -n num(其中 num 是用户在命令行中输入的数字) 但不知何故它不起作用
c++ - 命名管道 CreateFile() 返回 INVALID_HANDLE_VALUE，GetLastError() 返回 ERROR_PIPE_BUSY
我已经编写了一个类来处理命名管道连接，如果我创建了一个实例，关闭它，然后尝试创建另一个实例，调用 CreateFile() 返回 INVALID_HANDLE_VALUE，并且 GetLastErro
PHP is_writable() 返回 true 但 file_put_contents() 返回 false
即使 is_writable() 返回 true，我也无法写入文件。当然，该文件存在并且显然是可读的。这是代码: $file = "data"; echo file_get_contents($fil
php - SoapClient 返回 "NULL"，但 __getLastResponse() 返回 XML
下面代码中的变量 $response 为 NULL，尽管它应该是 SOAP 请求的值。 (潮汐列表)。当我调用 $client->__getLastResponse() 时，我从 SOAP 服务获得了
c - LoadImage() 返回 NULL 和 GetLastError() 返回 0
我一直在网上的不同论坛上搜索答案，但似乎没有与我的情况相符的... 我正在使用 Windows 7，VS2010。我有一个使用定时器来调用任务栏刷新功能的应用程序。在该任务栏函数中包含对 LoadI

首页

博学

6Ren·AI

商城

返回比 Linux `wc -l` 高得多的行数的 Python 代码