gpt4 book ai didi

java - 使用 Spark 高效读取 PDF/文本/word 文件

转载 作者:行者123 更新时间:2023-12-02 13:07:28 27 4
gpt4 key购买 nike

我正在对我的数据进行 NLP(自然语言处理)处理。数据采用文件形式,可以是 PDF/Text/Word/HTML 类型。这些文件存储在本地磁盘上的嵌套目录结构中。

我的基于 Java 的独立 NLP 解析器可以读取输入文件,从中提取文本并对提取的文本进行 NLP 处理。

我正在转换基于 Java 的 NLP 解析器以在 Spark 集群上执行它。我知道 Spark 可以从一个目录中读取多个文本文件并转换为 RDD 以便进一步处理。我的输入数据不仅是文本文件,而且是多种不同的文件格式。

我的问题是:如何在基于 Java 的 Spark 程序中有效地读取输入文件(PDF/Text/Word/HTML),以便在 Spark 集群中处理这些文件。

最佳答案

文件可以通过

读取
sparkContext.binaryFiles()

然后可以被解析器处理。

关于java - 使用 Spark 高效读取 PDF/文本/word 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44082398/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com