gpt4 book ai didi

java - 无法使用 Java Spark API 解析文件

转载 作者:行者123 更新时间:2023-12-01 09:31:48 24 4
gpt4 key购买 nike

我有一个包含这样条目的日志文件

10.28 INFO  [EFKLogger] - POGUpdateTenestenerServiceImpl: Entering listener with object 624866045533

现在使用 Spark,我想计算每小时命中的队列数量。队列是 POGUpdateTenestenerServiceImpl 。现在我想要一个仅包含时间和队列的 JAVARDD,以便我可以对其执行操作。我是新的顶级 Spark ,只找到了用所有单词或整行创建 RDD 的方法。我只想一行中的两个字。我怎样才能实现这个目标

最佳答案

您应该使用 SparkContext 的 textFile 函数来读取文件:

这是一个Scala示例,它可以轻松翻译为java

val text = sc.textFile("data.csv") //Read the file
val words = text.map(line=> line.split(" ")) //Break the line to words

现在,words 是一个单词数组,您可以利用第一秒对它们做任何您想做的事情。

关于java - 无法使用 Java Spark API 解析文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39342441/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com