gpt4 book ai didi

python - 无法转换为 utf-8

转载 作者:太空狗 更新时间:2023-10-30 01:57:52 26 4
gpt4 key购买 nike

我有以下字符串列表:

['\xe8\xbf\x99\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa\xe4\xbb\xa4\xe4\xba\xba\xe6\xb2\xae\xe4\xb8\xa7\xe7\x9a\x84\xe6\x97\xa5\x82','\xe6\x9c\x89\xe4\xb8\xaa\xe5\xb9\xb4\xe5\xb9\xbc\xe7\x9a\x84\xe5\x9f\xe5\x9c\xa8\xe7\x82\x8e\xe7\x82\x8e\xe7\x83\x88\xe6\x97\xa5\xb8\x8b\xe6\x99\x95\xe5\x80\x92\xe4\xba\x86\xe3\x80\x82','\xe8\x90\xbd\xe6\x97\xa5\x8a\x8a\xe5\xa4\xa9\xe7\xa9\xba\xe6\x9f\x93\xe6\x88\x90\xe9\x87\x91\xe8\x89\xb2\xe3\x80\xe6\x97\xa5\x8a\x8a\xe5\xa4\xa9\xe7\xa9\xba\xe6\x9f\x93\xe6\x88\x90\xe9\x87\x91\xe8\x89\xb2\xe3\x80\x82','\xe6\x98\x9f\xe6\x9c\x9f\xe6\x97\xa5\x98\xaf\xe4\xb8\x80\xe5\x91\xa8\xe7\x9a\x84\xe7\xac\xac\xe4\xb8\x80\xe5\xa4\xa9\xe3\x80\xe6\x9c\x9f\xe6\x97\xa5\x98\xaf\xe4\xb8\x80\xe5\x91\xa8\xe7\x9a\x84\xe7\xac\xac\xe4\xb8\x80\xe5\xa4\xa9\xe3\x80\x82','\xe5\x8d\x81\xe6\x9c\x88\xe4\xb8\x80\xe6\x97\xa5\x98\xaf\xe4\xb8\xe7\x9a\x84\xe5\x9b\xbd\xe5\xba\x86\xe8\x8a\x82\xe3\x80\x82','\xe5\x9c\xa8\xe6\x97\xa5\x9c\xac\xef\xbc\x8c\xe6\xa3\x92\xe7\x90\x83\xe6\xaf\x94\xe5\x85\xb6\xe4\xbb\x96\xe4\xbb\xbb\xe4\xbd\x95\xe8\xbf\x90\xe5\x8a\xa8\xe9\x83\xbd\xe5\x8f\x97\xe4\xba\xba\xe6\xac\xa2\xe8\xbf\x8e\xe3\x80\xe6\x97\xa5\x9c\xac\xef\xbc\x8c\xe6\xa3\x92\xe7\x90\x83\xe6\xaf\x94\xe5\x85\xb6\xe4\xbb\x96\xe4\xbb\xbb\xe4\xbd\x95\xe8\xbf\x90\xe5\x8a\xa8\xe9\x83\xbd\xe5\x8f\x97\xe4\xba\xba\xe6\xac\xa2\xe8\xbf\x8e\xe3\x80\x82','\xe8\xbf\x99\xe6\x98\xaf\xe6\xaf\x8f\xe5\xae\x89\xe6\x81\xaf\xe6\x97\xa5\xbc\x8c\xe9\x99\xa4\xe6\x97\xa5\xe5\xb8\xb8\xe7\x9a\x84\xe5\x85\xa8\xe7\x87\x94\xe7\xa5\xe5\xa5\xa0\xe7\xa5\xad\xe5\xa4\x96\xef\xbc\x8c\xe5\xba\x94\xe7\x8c\xae\xe7\x9a\x84\xe5\xae\x89\xe6\x81\xaf\xe6\x97\xa5\xe5\x85\xa8\xe7\x87\x94\xe7\xa5\xad\xe3\x80\x82','\xe6\x9c\x89\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe5\x8f\xaa\xe6\x9c\x89\xe9\x83\xa8\xe5\x88\x86\xe6\x97\xa5\xbd\xae\xe8\xa2\xab\xe9\x81\xae\xe6\x8c\xa1\xe4\xbd\x8f\xef\xbc\x8c\xe9\x82\xa3\xe5\xb0\xb1\xe4\xb8\x8d\xe6\x98\xaf\xe6\x97\xa5\xe5\x85\xa8\xe9\xa3\x9f\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe6\x97\xa5\xe5\x81\x8f\xe9\xa3\x9f\xe3\x80\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe5\x8f\xaa\xe6\x9c\x89\xe9\x83\xa8\xe5\x88\x86\xe6\x97\xa5\xbd\xae\xe8\xa2\xab\xe9\x81\xae\xe6\x8c\xa1\xe4\xbd\x8f\xef\xbc\x8c\xe9\x82\xa3\xe5\xb0\xb1\xe4\xb8\x8d\xe6\x98\xaf\xe6\x97\xa5\xe5\x85\xa8\xe9\xa3\x9f\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe6\x97\xa5\xe5\x81\x8f\xe9\xa3\x9f\xe3\x80\x82','\xe4\xba\x8b\xe4\xbb\xb6\xe5\x8f\x91\xe7\x94\x9f\xe6\x97\xa5\x8f\xaf\xe6\x8c\x87\xe5\xae\x9a\xe4\xb8\xba\xe5\x91\xa8\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe6\x88\x96\xe6\x9c\x88\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe3\x80\xe4\xbb\xb6\xe5\x8f\x91\xe7\x94\x9f\xe6\x97\xa5\x8f\xaf\xe6\x8c\x87\xe5\xae\x9a\xe4\xb8\xba\xe5\x91\xa8\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe6\x88\x96\xe6\x9c\x88\xe5\x86\x85\xe6\x9f\x90\xe6\x97\xa5\xe3\x80\x82']

程序一直给我这个错误:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xad in position 30: invalid start byte

我正在使用这段代码遍历列表并尝试转换,其中 new_sentences 是列表:

for i in range(0,len(new_sentences)):
stuff = new_sentences[i].strip()
stuff = unicode(stuff,"utf8")

我遍历了列表,但找不到不能转换的字节。我知道它很长,但任何帮助将不胜感激。谢谢。

最佳答案

您的字符串包含无效字节(例如 \x82),这使得 UTF-8 无法翻译。您可以使用

忽略无效字节
stuff = unicode(stuff, "utf8", errors="ignore")

但修复这些无效字符的来源会更有意义。

关于python - 无法转换为 utf-8,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35595012/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com