gpt4 book ai didi

读取时出现 Ruby CSV UTF8 编码错误

转载 作者:数据小太阳 更新时间:2023-10-29 06:50:34 25 4
gpt4 key购买 nike

这是我在做的:

csv = CSV.open(file_name, "r")

我用它来测试:

line = csv.shift
while not line.nil?
puts line
line = csv.shift
end

我遇到了这个:

ArgumentError: invalid byte sequence in UTF-8

我读了answer here这就是我尝试过的

csv = CSV.open(file_name, "r", encoding: "windows-1251:utf-8")

我遇到了以下错误:

Encoding::UndefinedConversionError: "\x98" to UTF-8 in conversion from Windows-1251 to UTF-8

然后我遇到了一个 Ruby gem - charlock_holmes。我想我会尝试使用它来查找源编码。

CharlockHolmes::EncodingDetector.detect(File.read(file_name))
=> {:type=>:text, :encoding=>"windows-1252", :confidence=>37, :language=>"fr"}

所以我这样做了:

csv = CSV.open(file_name, "r", encoding: "windows-1252:utf-8")

还有这个:

Encoding::UndefinedConversionError: "\x8F" to UTF-8 in conversion from Windows-1252 to UTF-8

最佳答案

您似乎无法检测文件的有效编码。 CharlockHolmes 为您提供了 :confidence=>37 的有用提示,这仅表示检测到的编码可能不正确。

基于错误消息和来自 https://github.com/MacRuby/MacRuby/blob/master/test-mri/test/ruby/test_transcode.rbtest_transcode.rb我找到了通过您的两条错误消息的编码。在 String#encode 的帮助下,它很容易测试:

"\x8F\x98".encode("UTF-8","cp1256") # => "ڈک"

您的问题看起来与文件密切相关,与 ruby​​ 无关。

如果我们不确定使用哪种编码并且可以同意丢失一些字符,我们可以使用 :invalid:undef params for String#encode ,在这种情况下:

"\x8F\x98".encode("UTF-8", "CP1250",:invalid => :replace, :undef => :replace, :replace => "?") # => "Ź?"

另一种方法是使用 Iconv *//IGNORE 选项进行目标编码:

Iconv.iconv("UTF-8//IGNORE","CP1250", "\x8F\x98")

CharlockHolmes 的源代码编码建议应该不错。

附言。 String.encode 是在 ruby​​ 1.9 中引入的。在 ruby​​ 1.8 中,您可以使用 Iconv

关于读取时出现 Ruby CSV UTF8 编码错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15822380/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com