gpt4 book ai didi

azure - Lucene .NET Azure Blob 存储和 IFilter

转载 作者:行者123 更新时间:2023-12-01 07:38:36 37 4
gpt4 key购买 nike

在 Azure 解决方案中使用 IFilter 从 pdf/word/其他内容中提取文本内容的最佳方法是什么?

我见过使用流的 IFilter 示例,但是流的内容应该是什么?它应该包含某种 OLE header 吗?

将原始文件内容作为流发送到 IFilter 似乎不起作用。

或者将文件保存到本地文件存储并让 IFilter 从该位置读取它们会更好吗?

最佳答案

在 azure 中使用 ifilter 会很棘手,因为桌面上常见的几个 ifilter 在 azure web/worker 角色中不可用。

您可以在 azure 中创建持久虚拟机并安装缺少的 ifilter。

但是,如果您要通过网络上传构建 lucene 索引,您可以在上传文件时将其处理为文本,然后为文本建立索引,并单独保存文件。向索引添加一个字段,以便您返回原始源文档。

可能是一种更简单的方法,但这就是我解决同样问题的方法。

关于azure - Lucene .NET Azure Blob 存储和 IFilter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7160069/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com