gpt4 book ai didi

ms-word - 如何使用 Lucene.NET 索引 Word 2003、2007 和 2010 文档

转载 作者:行者123 更新时间:2023-12-01 23:41:52 24 4
gpt4 key购买 nike

我正在编写一个自定义 Lucene.NET 索引器来启用 MS Word 文档的索引。索引器必须能够处理 MS Word 的最后三个版本:2010、2007 和 2003。

计划使用作为 VS2010 一部分安装的 VSTO 互操作程序集从文档中提取文本内容。

有没有更好的方法来实现Word文档索引?这是否意味着我必须在服务器上安装所有三个版本的 Word?或者只是 Word 2010?

工具/环​​境:

  • Lucene.NET 2.3.1.3
  • VS2010/.NET 3.5
  • Windows 2008/IIS 7

注意:有关如何实现此操作的详细信息,请参阅 Sitecore text search in PDF or Word documents

最佳答案

您可以使用 IFilter 插件来检索文档的内容,然后为它们建立索引。该接口(interface)最初是 Microsoft Index Service 的一部分,但通常可用于索引文档。

几年前我研究了这项技术,似乎记得 Office 文档的过滤器要么内置于 Windows 中,要么可以与完整的 Office 软件包分开安装,但我在这里可能是错的。

有关 IFilter 技术的更多信息,请访问 IFilter at WikipediaIFilter at MSDN 。您将不得不研究 P/Invoke 并可能会获得一些灵感 IFilter at pinvoke.net .

可以在 MSDN Code Gallery 找到 C# 示例。 .

关于ms-word - 如何使用 Lucene.NET 索引 Word 2003、2007 和 2010 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4014337/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com