gpt4 book ai didi

python - python读取特殊格式的文本文件

转载 作者:行者123 更新时间:2023-11-30 21:57:28 24 4
gpt4 key购买 nike

我想将文本文档文件夹转换为以下格式:

texts = ['文档 1 的文本', '文档 2 的文本', '文档 3 的文本',...]

为了应用文本挖掘方法。

到目前为止我的代码如下:

import os
file= "*.txt"
path = "C:\\"
texts=[]

for files in os.listdir(path):
with open(path + files) as f:
for x in f:
texts.append(x)

不幸的是,结果与想要的不同:

texts = ['line 1 of document 1', 'line 2 of document 1', …]

我做错了什么?有人可以建议改进我的代码吗?

最佳答案

for line in file: (或者在您的情况下,for x in f:)迭代文件中的行。

请改用.read() 方法。这会将整个文件读入一个字符串:

for files in os.listdir(path):
with open(path + files) as f:
texts.append(f.read())

编辑:我刚刚看到您对空条目的评论。如果您的目录包含空文件,您可以阻止添加它们:

for files in os.listdir(path):
with open(path + files) as f:
contents = f.read()
if contents.strip(): # will also remove files that contain only whitespace
texts.append(f.read())

关于python - python读取特殊格式的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55235622/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com