gpt4 book ai didi

python - 如何在python中检查文件的字符数

转载 作者:太空狗 更新时间:2023-10-29 22:01:30 24 4
gpt4 key购买 nike

我有一个 python 代码可以读取很多文件。但是有些文件非常大,因此我在其他代码中出现错误。我想要一种方法来检查文件的字符数,以避免读取那些非常大的文件。谢谢。

最佳答案

os.stat(filepath).st_size

假设“字符”是指字节。预计到达时间:

i need total character count just like what the command 'wc filename' gives me unix

在哪种模式下? wc 本身将为您提供行数、字数和字节数(与 stat 相同),而不是 Unicode 字符。

一个开关-m,它将使用语言环境的当前编码将字节转换为Unicode,然后计算代码点:这真的是您想要的吗?如果您要查找的只是太长的文件,那么解码成 Unicode 没有任何意义。如果你真的必须:

import sys, codecs

def getUnicodeFileLength(filepath, charset= None):
if charset is None:
charset= sys.getfilesystemencoding()
readerclass= codecs.getReader(charset)
reader= readerclass(open(filepath, 'rb'), 'replace')
nchar= 0
while True:
chars= reader.read(1024*32) # arbitrary chunk size
if chars=='':
break
nchar+= len(chars)
reader.close()
return nchar

sys.getfilesystemencoding() 获取语言环境编码,重现 wc -m 的作用。如果您自己知道编码(例如“utf-8”),则将其传入。

我认为你不想这样做。

关于python - 如何在python中检查文件的字符数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2011048/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com