gpt4 book ai didi

scala - Scalding:解析带 header 的逗号分隔数据

转载 作者:可可西里 更新时间:2023-11-01 14:49:54 25 4
gpt4 key购买 nike

我有以下格式的数据:

"header1","header2","header3",...
"value11","value12","value13",...
"value21","value22","value23",...
....

在 Scalding 中解析它的最佳方法是什么?我总共有 50 多个专栏,但我只对其中的一些感兴趣。我尝试使用 Csv("file") 导入它,但这不起作用。

想到的唯一解决方案是使用 TextLine 手动解析它并忽略偏移量 == 0 的行。但我相信一定有更好的解决方案。

最佳答案

最后我通过如下手动解析每一行解决了它:

def tipPipe = TextLine("tip").read.mapTo('line ->('field1, 'field5)) {
line: String => val arr = line.split("\",\"")
(arr(0).replace("\"", ""), if (arr.size >= 88) arr(4) else "unknown")
}

关于scala - Scalding:解析带 header 的逗号分隔数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25000142/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com