gpt4 book ai didi

text - 是否可以使用 Apache Tika 逐页提取 word/pdf 文件的文本?

转载 作者:行者123 更新时间:2023-12-04 03:17:03 24 4
gpt4 key购买 nike

我能找到的所有文档似乎都表明我只能提取整个文件的内容。但我需要单独提取页面。我需要为此编写自己的解析器吗?是否有一些我缺少的明显方法?

最佳答案

实际上 Tika 确实通过发送元素来处理页面(至少在 pdf 中)<div><p>在页面开始之前和 </p></div>页面结束后。您可以使用它轻松地在处理程序中设置页面计数(仅使用 <p> 计算页面):

public abstract class MyContentHandler implements ContentHandler {
private String pageTag = "p";
protected int pageNumber = 0;
...
@Override
public void startElement (String uri, String localName, String qName, Attributes atts) throws SAXException {

if (pageTag.equals(qName)) {
startPage();
}
}

@Override
public void endElement (String uri, String localName, String qName) throws SAXException {

if (pageTag.equals(qName)) {
endPage();
}
}

protected void startPage() throws SAXException {
pageNumber++;
}

protected void endPage() throws SAXException {
return;
}
...
}

使用 pdf 执行此操作时,当解析器未按正确顺序发送文本行时,您可能会遇到问题 - 请参阅 Extracting text from PDF files with Apache Tika 0.9 (and PDFBox under the hood)关于如何处理。

关于text - 是否可以使用 Apache Tika 逐页提取 word/pdf 文件的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5824867/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com