gpt4 book ai didi

当单元格/字段包含前导双引号时,Ruby 不会解析 CSV

转载 作者:太空宇宙 更新时间:2023-11-03 17:31:25 25 4
gpt4 key购买 nike

当其中一列包含双引号 "字符时,我将如何解析 CSV 文件?我收到“xxx 行缺少或杂散引号”错误,因为其中有尾随双引号。确切的错误是“第 58 行中缺少或杂散的引号 (CSV::MalformedCSVError)”。数据来自解析另一台设备(防火墙)配置的应用程序,并且“已作为注释添加到该设备的配置中,由管理员添加,因此不在我的控制范围内。

示例输入数据(无法提供文件,它们本质上是敏感的):

"Table 1 Firewall Policy from INT to EXT administrative service rules on TestFirewall","1","Yes","Allow","[Group] GreenServer","[Host] Any","[Group] FTP","No",""Access"^M

如您所见,最后一列中的注释是“Access”。如果最后一列中只有一个双引号,我目前使用的脚本似乎运行良好。

复制所需的最少代码:

#!/usr/bin/env ruby
require 'csv'
require 'pp'
nipperfiles = Dir.glob(ARGV[0] + '/*.csv')

def allcsv(nipperfiles)
filearray = []
nipperfiles.each do |csv|
filearray << csv
end

filearray
end

def devicetype(filelist)
filelist.each do |f|
CSV.foreach(f, :headers => true, :force_quotes => true, :encoding => Encoding::UTF_8) do |row|
if row["Table"] =~ /audit device list/ && row["OS"] =~ /FortiOS/
return "Fortigate"
end
end
end
end

filelist = allcsv(nipperfiles)
device = devicetype(filelist)

理想情况下,工作代码会忽略额外的引号或替换它或任何其他可能有问题的字符。可能值得注意的是,鉴于原始防火墙配置是由一个人配置的,该人可以将额外的引号放在几乎任何单元格/字段中。

最佳答案

这里有一个技巧可能会有所帮助。使用 :quote_char => "'"(假设 CSV 列中的值没有单引号字符),这将在读取值中包含双引号 - 您可以通过代码摆脱它:

例子:

CSV.foreach(f, :force_quotes => true, :encoding => Encoding::UTF_8,
:quote_char => "'") do |row|
puts row[0]
#=> "Table 1 Firewall ... administrative service rules on TestFirewall"
puts row[0][1..-2]
#=> Table 1 Firewall ... administrative service rules on TestFirewall
end

仅供引用:您可以使用任何最不可能出现在 CSV 文本中的字符作为 :quote_char 并且上述解决方案仍然有效


如果上面的方法不起作用,那么,您最好将每一行处理为字符串并对其使用 split 而不是使用 CSV 类。

File.open("/path/to/file") do |f|
f.each_line do |for|
columns = row.split(",")
end
end

关于当单元格/字段包含前导双引号时,Ruby 不会解析 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35255668/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com