gpt4 book ai didi

python - Pandas 数据帧导入和渲染不正确并导致 UnicodeDecodeError

转载 作者:行者123 更新时间:2023-12-01 00:27:02 27 4
gpt4 key购买 nike

我正在尝试导入包含中文字符的 csv。

该命令用于下载csv文件

!wget -O wm.csv https://raw.githubusercontent.com/hierarchyJK/compare-LIBSVM-with-Linear-and-Gassian-Kernel/master/%E8%A5%BF%E7%93%9C3.0.csv

该存储库不是我的,因此我不确定它的编码方式是否正确。

我可以确定的是它renders正确。

这段代码

pd.read_csv('wm.csv',encoding = 'utf-8')

导致此错误

'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte

我搜索了这个错误,没有找到合适的rca和解决方案。

此代码正确执行

pd.read_csv('wm.csv',encoding = 'cp1252')

但是呈现乱码

enter image description here

系统正确呈现汉字。

enter image description here

使用 python 打开命令

with open('wm.csv', 'r', encoding='cp1252') as f:
for line in f.readlines():
print(line)
break

此代码呈现乱码,没有任何警告或错误。

±àºÅ,É«Ôó,¸ùµÙ,ÇÃÉù,ÎÆÀí,Æ겿,´¥¸Ð,ÃܶÈ,º¬ÌÇÂÊ,ºÃ¹Ï,Ðò¹Øϵ

最佳答案

编码为“GB18030”。我通过在文本编辑器中打开文件并检查建议的编码发现了这一点。当您转到 github 链接并单击编辑文件时,Github 实际上还会向您显示编码

关于python - Pandas 数据帧导入和渲染不正确并导致 UnicodeDecodeError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58496483/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com