gpt4 book ai didi

go - 使用Apache Tika提取大文件

转载 作者:行者123 更新时间:2023-12-03 10:10:40 25 4
gpt4 key购买 nike

我将Apache Tika与Go结合使用,使用以下代码从任何类型的文件(.txt,.docx,.pdf等)中提取内容。

file, err := os.Open("foo.docx")
if err != nil {
fmt.Println(err)
}
client := tika.NewClient(nil, "http://localhost:9998/")
body, err := client.Parse(context.Background(), file)
它可以很好地提取内容,但是问题是,如果文件大小较大,则可能会产生时间错误。内存越界。
所以我想在这里做的是,我想将文件大块地传递给 Apache Tika server,以便它提取大块的内容。

最佳答案

  • 您可以使用 header 更改超时:X-Tika-OCRtimeout:xxx(600)
  • 可以使用pdfbox将pdf文档分为几页-检查org.apache.pdfbox.multipdf.Splitter(apache tika也可以使用pdfbox)
    因此,您无需发送大的pdf文件,而是可以按页面拆分文档,然后将其发送到tika
  • 关于go - 使用Apache Tika提取大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65608449/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com