gpt4 book ai didi

python - 拆分函数将 :\xef\xbb\xbf. ..\n 添加到我的列表

转载 作者:IT老高 更新时间:2023-10-28 20:34:08 31 4
gpt4 key购买 nike

我想打开我的 file.txt 并拆分该文件中的所有数据。

这是我的 file.txt:

some_data1 some_data2 some_data3 some_data4 some_data5

这是我的python代码:

>>>file_txt = open("file.txt", 'r')
>>>data = file_txt.read()
>>>data_list = data.split(' ')
>>>print data
some_data1 some_data2 some_data3 some_data4 some_data5
>>>print data_list
['\xef\xbb\xbfsome_data1', 'some_data1', "some_data1", 'some_data1', 'some_data1\n']

正如您在此处看到的,当我打印 data_list 时,它会在我的列表中添加:\xef\xbb\xbf 和:\n。这些是什么以及如何清除我的列表。

谢谢。

最佳答案

您的文件包含 UTF-8 BOM一开始。

要摆脱它,首先将文件内容解码为 un​​icode。

fp = open("file.txt")
data = fp.read().decode("utf-8-sig").encode("utf-8")

但最好不要将其编码回 utf-8,而是使用 unicoded 文本。有一个很好的规则:尽快将所有输入的文本数据解码为 un​​icode,并且只使用 unicode;并尽可能晚地将输出数据编码为所需的编码。这将使您免于许多麻烦。

要以某种编码读取更大的文件,请使用 io.opencodecs.open .

同时检查 this .

使用 str.strip()str.rstrip()摆脱换行符 \n.

关于python - 拆分函数将 :\xef\xbb\xbf. ..\n 添加到我的列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18664712/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com