gpt4 book ai didi

csv - 在 Julia 中读取 .dat 文件,可变分隔符间距的问题

转载 作者:行者123 更新时间:2023-12-04 13:14:28 25 4
gpt4 key购买 nike

我在将 .dat 文件读入数据帧时遇到问题。我认为问题出在分隔符上。我在下面附上了文件中数据的屏幕截图。我最好的猜测是它是在列之间用制表符分隔,然后在行之间用换行符分隔。我尝试使用以下命令读取数据:

    df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame!
df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFrame!

无论哪种方式,我的结果都只是一个只有一列的 DataFrame,其中包括将每一列连接成一个字符串的所有数据。我什至尝试使用以下代码指定类型:

df = CSV.File("FORCECHAIN00046.dat"; types=[Float64,Float64,Float64,Float64,
Float64,Float64,Float64,Float64,Float64,Float64,Float64,Float64]) |> DataFrame!

我收到以下错误:

┌ Warning: 2; something went wrong trying to determine row positions for multithreading; it'd be very helpful if you could open an issue at https://github.com/JuliaData/CS
V.jl/issues so package authors can investigate

我可以通过将其上传到 google 表格然后下载 csv 来解决这个问题,但我想找到一种方法来使原始 .dat 文件正常工作。

enter image description here

最佳答案

这里的部分问题是 .dat 不是一种正确的文件格式——它只是一种似乎以某种人类可读的格式写出的东西,数字列由可变数字分隔空格,以便当您在编辑器中查看时,数字会对齐。 Google Sheets 内置了很多巧妙的技巧,可以为各种定义不明确的数据文件“做你想做的事”,所以我对它能够解析这些文件并不感到惊讶。另一方面,CSV 包支持使用单个字符作为分隔符甚至多字符字符串,但不支持像这样的可变数量的空格。

可能的解决方案:

  • 如果文件不是太大,您可以轻松地推出自己的解析器来拆分每一行,然后构建一个矩阵
  • 您还可以对文件进行预处理,将多个空格转换为单个空格

这可能是最简单的方法,这里有一些 Julia 代码(未经测试,因为您没有提供测试数据)将打开您的文件并将其转换为更合理的格式:

function dat2csv(dat_path::AbstractString, csv_path::AbstractString)
open(csv_path, write=true) do io
for line in eachline(dat_path)
join(io, split(line), ',')
println(io)
end
end
return csv_path
end

function dat2csv(dat_path::AbstractString)
base, ext = splitext(dat_path)
ext == ".dat" ||
throw(ArgumentError("file name doesn't end with `.dat`"))
return dat2csv(dat_path, "$base.csv")
end

您可以将此函数称为 dat2csv("FORCECHAIN00046.dat"),它会创建文件 FORCECHAIN00046.csv,这将是一个使用逗号的正确 CSV 文件作为分隔符。如果文件中包含任何带逗号的值,那将无法正常工作,但看起来它们只是数字,在这种情况下应该没问题。因此,您可以使用此函数将文件转换为正确的 CSV,然后使用 CSV 包加载该文件。

代码的一点解释:

  • 双参数 dat2csv 方法打开 csv_path 进行写入,然后调用 dat_path 上的 eachline 读取一个一次形成一行
  • eachline 从每一行中去除任何尾随的换行符,因此每一行 line 都是由空格分隔的一堆数字,带有一些前导和/或尾随空格
  • split(line) 执行 line 的默认拆分,即在空白处拆分它,删除任何空值——这只留下非空白条目作为字符串在数组
  • join(io, split(line), ',') 将数组中的字符串连接在一起,由 , 字符分隔并将其写入 iocsv_path
  • 写入句柄
  • println(io) 在那之后写一个换行符——否则一切都将结束在一个很长的行上
  • 单参数 dat2csv 方法调用 splitext 将文件名拆分为基本名称和扩展名,检查扩展名是否为预期的 .dat 并调用双参数版本,将 .dat 替换为 .csv

关于csv - 在 Julia 中读取 .dat 文件,可变分隔符间距的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61665998/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com