gpt4 book ai didi

java - 从目录中读取 HTML 文件并分别发送每个文件的内容以在 java spark 中的方法中进行处理

转载 作者:可可西里 更新时间:2023-11-01 16:47:26 25 4
gpt4 key购买 nike

我是 spark 的新手,我试图将所有 HTML 文件放在一个目录中,然后将每个文件的内容分别(如果可能的话还有确切的路径)传递给另一个将处理 HTML 的方法(我们将使用这从该 HTML 中提取信息)将只能在 Java 中执行此操作。提前致谢。

最佳答案

您可以使用 sc.wholeTextFiles 方法创建您的 RDD,并在 RDD 上使用映射转换应用您的处理逻辑。示例代码在这里

>       JavaSparkContext jsc = new JavaSparkContext(sc);
> JavaPairRDD<String,String> rdd = jsc.wholeTextFiles(path);
> for(Tuple2<String, String> str : rdd.toArray()) { System.out.println("+++++++++++++++++++++++++++++++++++++++++++");
> System.out.println("File name " + str._1);
> System.out.println("+++++++++++++++++++++++++++++++++++++++++++");
> System.out.println();
> System.out.println("-------------------------------------------");
> System.out.println("content " + str._2);
> System.out.println("-------------------------------------------");
> }

关于java - 从目录中读取 HTML 文件并分别发送每个文件的内容以在 java spark 中的方法中进行处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35996326/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com