gpt4 book ai didi

python - 如何在 python(2.7) 中使用 Tika 包(https ://github. com/chrismattmann/tika-python)来解析 PDF 文件?

转载 作者:太空宇宙 更新时间:2023-11-04 06:45:42 25 4
gpt4 key购买 nike

我正在尝试解析一些包含工程图纸的 PDF 文件以获取文件中的文本数据。我尝试将 TIKA 用作 python 的 jar,并将其与 jnius 包一起使用(在此处使用本教程: http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html ) 但代码会引发错误。

然而,使用 TIKA 包我能够传递文件并解析它们,但 Python 只能提取元数据,当被要求解析内容时,Python 返回输出“无”。它能够完美解析 .txt 文件,但无法提取 PDF 的内容。这是代码

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
print parsed["metadata"]
print parsed["content"]

我是否需要额外的包/代码线才能提取数据?

最佳答案

您需要先下载 Tika Server Jar 并运行它。检查此链接:http://wiki.apache.org/tika/TikaJAXRS

  1. 下载 jar
  2. 将其存储在某处并以 java -jar tika-server-x.x.jar --port xxxx
  3. 运行
  4. 在您的代码中,您现在不需要执行 tika.initVM() 添加 tika.TikaClientOnly = True 而不是 tika.initVM()
  5. parsed = parser.from_file('/path/to/file') 更改为parsed = parser.from_file('/path/to/file', '/path/to/server') 您将在第 2 步中获得服务器路径。当 tika 服务器启动时 - 只需插入在这里

祝你好运!

关于python - 如何在 python(2.7) 中使用 Tika 包(https ://github. com/chrismattmann/tika-python)来解析 PDF 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33073972/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com