gpt4 book ai didi

scala - 使用Spark和Scala筛选出任何无法正确解析的记录

转载 作者:行者123 更新时间:2023-12-02 22:06:52 25 4
gpt4 key购买 nike

我有一个包含多行的txt文件。请参见下面的两行示例:

2014-03-15:10:10:20,Sorrento F41L,8cc3b47e-bd01-4482-b500-28f2342679af,7,24,39,enabled,disabled,connected,55,67,12,33.6894754264,-117.543308253
2014-03-15:10:10:20|MeeToo 1.0|ef8c7564-0a1a-4650-a655-c8bbd5f8f943|0|31|63|70|39|27|enabled|enabled|enabled|37.4321088904|-121.485029632

如您所见,第一行用逗号分隔,而第二行用竖线分隔。该文件包含很多行,其中一些用逗号分隔,另一些用管道分隔。

我需要做的是过滤掉任何未正确解析的记录(即,每条正确解析的记录/行应具有准确的14个值/字段)

首先,我使用sc.textFile(“/ path / filename.txt”)读取了文件,但是我不知道如何继续。

最佳答案

也许像

sc.textFile("/path/filename.txt").map( _.split("[|,]") ).filter( _.length == 14 )

关于scala - 使用Spark和Scala筛选出任何无法正确解析的记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36512435/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com