gpt4 book ai didi

hadoop - 如何解析多个pdf转换成hadoop(例子)

转载 作者:可可西里 更新时间:2023-11-01 15:26:45 26 4
gpt4 key购买 nike

我有 100 万个 pdf,如何使用 hadoop 转换为文本并将其用于分析。目标是利用 hadoop 的强大功能将 pdf 数据提取为文本。

最佳答案

我已经在 Hadoop 上处理了一个 pdf 文件,没有尝试处理多个文件,但我相信它也适用于多个文件。

完整的代码可以在下面的链接中找到

http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html

希望这对您有所帮助!!..

关于hadoop - 如何解析多个pdf转换成hadoop(例子),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44382467/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com