gpt4 book ai didi

java - 从 Java 中的 Spark 数据集中获取唯一单词

转载 作者:行者123 更新时间:2023-12-01 20:23:12 24 4
gpt4 key购买 nike

我正在使用 Apache Spark 2 对一些文本进行标记。

Dataset<Row> regexTokenized = regexTokenizer.transform(data);

它返回字符串数组。

Dataset<Row> words = regexTokenized.select("words");

示例数据如下所示。

+--------------------+
| words|
+--------------------+
|[very, caring, st...|
|[the, grand, cafe...|
|[i, booked, a, no...|
|[wow, the, places...|
|[if, you, are, ju...|

现在,我想得到所有独特的单词。我尝试了几个过滤器、flatMap、map 函数和reduce。我无法弄清楚,因为我是 Spark 新手。

最佳答案

根据 @Haroun Mohammedi 的回答,我能够用 Java 解决这个问题。

Dataset<Row> uniqueWords = regexTokenized.select(explode(regexTokenized.col("words"))).distinct();
uniqueWords.show();

关于java - 从 Java 中的 Spark 数据集中获取唯一单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44293118/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com