gpt4 book ai didi

python - 如何将导入的txt文件的文件名添加到python中的数据帧

转载 作者:行者123 更新时间:2023-12-04 12:34:29 29 4
gpt4 key购买 nike

我已经从文件夹中导入了几千个 txt 文件到 pandas dataframe .有什么方法可以创建一个列,从其中导入的 txt 文件的文件名中添加一个子字符串?这是为了通过唯一名称标识数据框中的每个文本文件。
文本文件被命名为 1001example.txt, 1002example.txt, 1003example.txt和儿子。我想要这样的东西:

filename        text
1001 this is an example text
1002 this is another example text
1003 this is the last example text
....
我用来导入数据的代码如下。但是,我不知道如何通过文件名的子字符串创建列。任何帮助,将不胜感激。谢谢。
import glob
import os
import pandas as pd

file_list = glob.glob(os.path.join(os.getcwd(), "K:\\text_all", "*.txt"))

corpus = []

for file_path in file_list:
with open(file_path, encoding="latin-1") as f_input:
corpus.append(f_input.read())

df = pd.DataFrame({'text':corpus})

最佳答案

这应该有效。它从文件名中获取数字。

import glob
import os
import pandas as pd

file_list = glob.glob(os.path.join(os.getcwd(), "K:\\text_all", "*.txt"))

corpus = []
files = []

for file_path in file_list:
with open(file_path, encoding="latin-1") as f_input:
corpus.append(f_input.read())
files.append(''.join([n for n in os.path.basename(file_path) if n.isdigit()]))

df = pd.DataFrame({'file':files, 'text':corpus})

关于python - 如何将导入的txt文件的文件名添加到python中的数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62888385/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com