gpt4 book ai didi

python - 如何用 Pandas 读取文件(带有特殊字符)?

转载 作者:行者123 更新时间:2023-12-02 06:31:13 25 4
gpt4 key购买 nike

我遇到(编码/解码)问题。

虽然我使用“utf-8”将文件读入DataFrame,代码如下所示,但字符在输出中看起来非常不同。语言是法语。如果您能提供帮助,我将非常高兴,提前谢谢您。

检查的第一行数据

b"Sur la #route des station ou de la maison\xf0\x9f\x9a\x98\xe2\x9d\x84\xef\xb8\x8f?\nCet apr\xc3\xa8s-midi,les #gendarmes veilleront就你而言,在 #Yonne 上,o\xc3\xb9 的 #vitesse 中的\xc3\xa8s 以及 l'#A6 的使用者的危险行为\xc3\xa9s\xe2\x9a\xa0\xef\xb8\x8f\n请谨慎行事,\xc3\xa9quipez-vous & n'oubliez-pas la r\xc3\xa8gle des 3\xf0\x9f\x85\xbf\xef\xb8\x8f!"

import pandas as pd
data = pd.read_csv('C:\\Users\\Lenovo\\Desktop\\gendarmerie_tweets.csv', delimiter=";", encoding="utf-8")
data.head()

输出:

    text
0 b"Sur la #route des stations ou de la maison\x...
1 b"#Guyane Soutien \xc3\xa0 nos 10 #gendarmes e...
2 b'#CoupDeCoeur \xf0\x9f\x92\x99 Journ\xc3\xa9e...
3 b'RT @servicepublicfr: \xf0\x9f\x97\xb3\xef\xb...
4 b"\xe2\x9c\x85 7 personnes interpell\xc3\xa9es...

最佳答案

我相信对于这种情况,您可以尝试使用不同的编码。我相信可以帮助您解决此问题的解码参数是'ISO-8859-1':

data = pd.read_csv('C:\\Users\\Lenovo\\Desktop\\gendarmerie_tweets.csv', delimiter=";", encoding='iso-8859-1')

编辑:

给出读取文件的输出:

<_io.TextIOWrapper name='C:\\Users\\Lenovo\\Desktop\\gendarmerie_tweets.csv' mode='r' encoding='cp1254'>

来自Python的codec cp1254 别名 windows-1254 是土耳其语,所以我建议也尝试 latin5windows-1254 但这些都不是选项似乎有帮助。

关于python - 如何用 Pandas 读取文件(带有特殊字符)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60208997/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com