gpt4 book ai didi

python - Pandas 将文件行作为一列读取

转载 作者:行者123 更新时间:2023-12-04 15:00:46 26 4
gpt4 key购买 nike

我有一个文本文件语料库(多个 txt 文件),每个文件的结构如下:

TITLE: some title
URL: some url
META: some meta
DATE: some date
AUTHOR(S): author
TEXT: some text

如何读取文件,以便我有一个包含列(标题、url、...、文本)的数据框?谢谢!

最佳答案

您可以使用re库来解析文本,例如(regex101):

import re
import pandas as pd

df = pd.DataFrame(
[
dict(
re.findall(
r"^([A-Z][^:]+):\s*(.*?)\s*?(?=^[A-Z][^:]+:|\Z)",
open("your_file.txt", "r").read(),
flags=re.S | re.M,
)
)
]
)
print(df)

打印:

        TITLE       URL       META       DATE AUTHOR(S)       TEXT
0 some title some url some meta some date author some text

关于python - Pandas 将文件行作为一列读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67003888/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com