gpt4 book ai didi

python - 忽略使用 file.readline(size) 后读取的其余行

转载 作者:行者123 更新时间:2023-11-28 22:17:32 28 4
gpt4 key购买 nike

有问题

我有一个将部署在各个地方的 Python 应用程序。所以 Nasty 先生很可能会修改该应用程序。

所以问题是安全相关的。该应用程序将接收从远程源接收的文件(纯文本)。该设备的 RAM (Raspberry Pi) 数量非常有限。

很有可能向脚本提供非常大的输入,这将是一个大麻烦。
我想避免“按原样”阅读文件的每一行,而是只阅读该行的第一部分,例如。 44 字节并忽略其余部分。

所以只是为了案例的缘故,一个非常粗糙的样本:

lines = []
with open("path/to/file.txt", "r") as fh:
while True:
line = fh.readline(44)
if not line:
break
lines.append(line)

这是可行的,但如果一行的长度超过 44 个字符,下一次读取的将是该行的其余部分,甚至是同一行的多个 44 字节长的部分。演示:

print(lines)
['aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa',
'aaaaaaaaaaaaaaaaaaaaaaaaa \n',
'11111111111111111111111111111111111111111111',
'111111111111111111111111111111111111111\n',
'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
'bbbbbbbbbbbbbbb\n',
'22222222222222222222222222222222222222222\n',
'cccccccccccccccccccccccccccccccccccccccccccc',
'cccccccccccccccccccccccccccccccccccccccccccc',
'cccc\n',
'333333333333\n',
'dddddddddddddddddddd\n']

这不会使我免于将整个内容读取到变量中,并可能导致整洁的 DOS

我认为也许使用 file.next() 会跳转到下一行。

lines = []
with open("path/to/file.txt", "r") as fh:
while True:
line = fh.readline(44)
if not line:
break
if line != "":
lines.append(line.strip())
fh.next()

但这会引发错误:

Traceback (most recent call last):
File "./test.py", line 7, in <module>
line = fh.readline(44)
ValueError: Mixing iteration and read methods would lose data

...对此我无能为力。我已经阅读了有关 file.seek() 的内容,但它确实没有任何功能(根据文档)。

同时,我在写这篇文章的时候,其实我自己也想通了。它是如此简单,几乎令人尴尬。但我想我会完成这篇文章并将它留给可能有同样问题的其他人。

所以我的解决方案:

lines = []
with open("path/to/file.txt", "r") as fh:
while True:
line = fh.readline(44)
if not line:
break
lines.append(line)
if '\n' not in line:
fh.readline()

所以输出现在看起来像这样:

print(lines)
['aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa',
'11111111111111111111111111111111111111111111',
'bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb',
'22222222222222222222222222222222222222222\n',
'cccccccccccccccccccccccccccccccccccccccccccc',
'333333333333\n',
'dddddddddddddddddddd\n']

哪个足够接近。

我不敢说它是最好的或好的解决方案,但它似乎可以完成工作,而且我根本没有将行的冗余部分存储在变量中。

但出于好奇,我其实有一个问题。如上:

fh.readline()

当你调用这样一个方法而不将其输出重定向到变量或其他时,它在哪里存储输入,它的生命周期是多少(我的意思是如果它被存储,它什么时候会被销毁)?

谢谢大家的意见。我学到了一些有用的东西。

我不太喜欢 file.read(n) 的工作方式,尽管大多数解决方案都依赖它。

感谢你们,我只使用 file.readline(n) 提出了一个改进的解决方案:

limit = 10
lineList = []
with open("linesfortest.txt", "rb") as fh:
while True:

line = fh.readline(limit)
if not line:
break

if line.strip() != "":
lineList.append(line.strip())
while '\n' not in line:
line = fh.readline(limit)

print(lineList)

如果我的想法是正确的,内部 while 循环将读取相同的行 block ,直到它读取 EOL 字符,同时,它会一次又一次地只使用一个 sized 变量。这提供了一个输出:

['"Alright,"', 
'"You\'re re',
'"Tell us!"',
'"Alright,"',
'Question .',
'"The Answe',
'"Yes ...!"',
'"Of Life,',
'"Yes ...!"',
'"Yes ...!"',
'"Is ..."',
'"Yes ...!!',
'"Forty-two']

内容来自

"Alright," said the computer and settled into silence again. The two men fidgeted. The tension was unbearable.
"You're really not going to like it," observed Deep Thought.
"Tell us!"
"Alright," said Deep Thought.
Question ..."
"The Answer to the Great
"Yes ...!"
"Of Life, the Universe and Everything ..." said Deep Thought
"Yes ...!" "Is ..." said Deep Thought, and paused.
"Yes ...!"
"Is ..."
"Yes ...!!!...?"
"Forty-two," said Deep Thought, with infinite majesty and calm.

最佳答案

当你这样做的时候:

f.readline()

从文件中读取一行,分配一个字符串,返回,然后丢弃。

如果你有非常大的行,你可以通过调用 f.readline() 耗尽内存(在分配/重新分配阶段)(当一些文件损坏时会发生),即使你不存储值。

限制行的大小是有效的,但如果您再次调用 f.readline(),您将获得该行的剩余部分。诀窍是跳过剩余的字符,直到找到行终止字符。我将如何做的一个简单的独立示例:

max_size = 20
with open("test.txt") as f:
while True:
l = f.readline(max_size)
if not l:
break # we reached the end of the file
if l[-1] != '\n':
# skip the rest of the line
while True:
c = f.read(1)
if not c or c == "\n": # end of file or end of line
break
print(l.rstrip())

该示例读取一行的开头,如果该行已被截断(即当它没有以行终止结束时),我将读取该行的其余部分,并将其丢弃。即使行很长,也不会消耗内存。实在是太慢了。

关于组合 next()readline():这些是并发机制(手动迭代与经典行读取)并且它们不能混合,因为缓冲一种方法可能会被另一种方法忽略。但是您可以混合使用 read()readline()for 循环和 next()

关于python - 忽略使用 file.readline(size) 后读取的其余行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51329319/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com