gpt4 book ai didi

python - 将 utf-8 格式的字符串转换为 unicode : Python

转载 作者:太空宇宙 更新时间:2023-11-04 01:02:10 24 4
gpt4 key购买 nike

我有一个包含如下行的文本文件:

str = '0|Crazy Taxi\xe2\x84\xa2 City Rush^Truck Racing Super Gear^Candy Crush Soda Saga^Car Parking^BMX Kid^Hill Climb Racing^UNLimited Kareena Kapoor^3D Car Parking^Find My Android Phone!^Christmas Trains^Top Free Games^Telegram^Door Screen Lock^Adventure of Ted 2 - Free^Sonic Jump^'

我想删除“\xe2\x84\xa2”,我可以使用以下代码行来完成:

print unicode(str,errors="ignore")

output = '0|Crazy Taxi City Rush^Truck Racing Super Gear^Candy Crush Soda Saga^Car Parking^BMX Kid^Hill Climb Racing^UNLimited Kareena Kapoor^3D Car Parking^Find My Android Phone!^Christmas Trains^Top Free Games^Telegram^Door Screen Lock^Adventure of Ted 2 - Free^Sonic Jump^'

但是当我使用下面提到的代码对完整文件运行相同的逻辑时:

with open('train_data_dump.txt', mode='r') as document:
for line in document:
print unicode(line,errors='ignore')

它像以前一样打印该行。

如果我问的不够清楚,请随时提问,请帮忙。

最佳答案

当你从一个文件中分配一个变量时,就好像你分配了一个原始字符串——反斜杠被认为是一个普通的字母。您首先需要解码转义字符。

unicode(i.decode("string_escape"), errors="ignore")

Python Specific Encodings

关于python - 将 utf-8 格式的字符串转换为 unicode : Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32373228/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com