gpt4 book ai didi

python - 将 csv 文本从 utf-16 转换为 ascii 或正确读入

转载 作者:行者123 更新时间:2023-11-28 18:23:40 34 4
gpt4 key购买 nike

我在从 csv 文件读取文本时遇到问题。csv 文件中的示例行如下所示:“

1477-7819-4-45-2 Angiolymphatic Invasion (H & E 400 Ã)."

我猜是文本编码的问题,所以我决定把它改成ASCII。

到目前为止,这是我的 python 代码:

text_path = '/some_path/filename.csv'
text_path_ascii = '/some_path/filename_ASCII.csv'

input_codec = 'UTF-16'
output_codec = 'ASCII'

for line in unicode_file:
unicode_data = unicode_file.read().decode(input_codec)
#here is another problem => AttributeError: 'str' object has no attribute 'decode'
unicode_data = unicode_file.read()

ascii_file = open(text_path_ascii, 'w')
ascii_file.write(unicode_data.write(unicode_data.encode(output_codec)))
# same problem=> AttributeError: 'str' object has no attribute 'encode'
ascii_file.write(unicode_data.encode(output_codec))

所以我的问题是我不知道如何编码/解码文本。

我什至不确定这是否是处理错误书面文本的正确方法(是的,如果您使用任何编辑器打开它,文本看起来就像给定的行)。

或者是否有更简单的方法直接读取没有“破损”字符的 csv 文本?

谢谢你的想法

最佳答案

str 上没有decode 方法,但它在bytes

如果你想解码它。您可以使用 open 本身来完成。

file = open(filename, mode, encoding='utf-8')

关于python - 将 csv 文本从 utf-16 转换为 ascii 或正确读入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43117805/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com