gpt4 book ai didi

pdf - Tika - 如何从 PDF 文本中提取文本 : underlined, 突出显示,划掉

转载 作者:行者123 更新时间:2023-12-04 16:20:54 33 4
gpt4 key购买 nike

我正在使用 Tika* 来解析 PDF 文件。检索文档的文本没有问题,但我不知道如何提取文本:

  • 下划线
  • 突出显示
  • 划掉

Adobe Writer 为您提供了不同的文本编辑选项,但我看不到它们“隐藏”的位置。

是否有解决方案来提取这些元数据信息? (下划线,突出显示...)

您知道 Tika 是否能够提取这些数据吗?

*http://tika.apache.org/

最佳答案

哇。等待答案需要 4 年的时间,我认为您现在已经找到了解决方案。无论如何,为了那些会访问此链接的人,答案是肯定的。 Apache Tika 不仅可以提取文档中的文本,还可以提取格式(例如粗体、斜体)。这是我的场景:

    //inputStream is the document you wish to parse from.

AutoDetectParser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
Metadata metadata = new Metadata();

parser.parse(inputStream,handler,metadata);
System.out.println(handler.toString());

print 语句打印文档的 XML。通过一些清理 XML(真正的 HTML 标签)的工作,您将留下诸如 < b >text 用于粗体文本和 < i >text 用于斜体文本的标签。然后你可以找到一种方法来渲染它。祝你好运。

关于pdf - Tika - 如何从 PDF 文本中提取文本 : underlined, 突出显示,划掉,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12341514/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com