gpt4 book ai didi

vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-04 11:18:06 24 4
gpt4 key购买 nike

我正在使用 VB9 (VS2008) 和 Lucene.NET 开发桌面搜索引擎。
Lucene.NET 中的索引器仅接受原始文本数据,无法直接从 Microsoft Office(DOC、DOCX、PPT、PPTX)和 PDF 文档中提取原始文本。
从此类文件中提取原始文本数据的最佳方法是什么?

最佳答案

您可以像 Windows 桌面搜索一样使用实现 IFilter 接口(interface)的组件。

  • Example of its usage from .NET
  • Links to IFilter implementations
  • Description of the IFilter interface
  • 关于vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/465302/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com