sharepoint - 如何在 Microsoft Search Server 2008 中创建用于索引重量级格式的预处理应用程序？-6ren

sharepoint - 如何在 Microsoft Search Server 2008 中创建用于索引重量级格式的预处理应用程序？

转载作者：行者123 更新时间：2023-12-04 07:10:12

25

4

我需要为 Microsoft Search Server 2008 开发一个 IFilter，它执行长时间的计算以提取文本。从一个文件中提取文本可能需要 5 秒到 12 小时。

这样做的一个想法是 creating a preprocessing application .

我如何设计这样的应用程序？具体来说:
- 如何将 Search Server 搜寻器连接到我的应用程序？
- 提取完成后，如何将提取的文本输入搜索服务器？

最佳答案

首先，您需要对 IFilter 本身进行编码。

This article is quite good它也引用了一些好文章。
IFilter.org
另见 this set of articles

接下来是如何预处理的问题。
我能想到的最简单的方法是创建一个 FileSystemWatcher启动文档的预处理。

预处理器可以解析文档中的文本并将其存储在某处。

“某处”成为下一个问题，这主要是一种商业决策。
如果文档的目录可以添加到，我会在每个文件夹中添加一个索引目录，因为文档被解析并在其中存储一个文件，例如 [OriginalFilenameSansExtemsion]_index.txt。

如果这不可能，请在每个驱动器上创建一个索引文件夹并根据需要镜像目录结构。
归根结底，您需要的只是让 IFilter 能够根据正在编制索引的文件的文件名确定在哪里查找具有预处理内容的文本文档。

当 IFilter 运行时，调用 Init。发生这种情况时，只需加载文本文档并在调用 GetChunk、GetText 和 GetValue 函数时返回其内容。

该解决方案最终将导致预处理器和 IFilter 之间的隐式依赖关系，因为它们都将存储自己的“查找”索引文档的方式。

应该可以将索引文档的位置存储在某个共享配置位置。

更新
在 Search Server 下将如何调用 IFilter 方法？
创建后，必须将 IFilter 安装在索引服务器上(即必须注册相关的 dll)。
使用 this article作为指南，作为您实现的一部分，您将为您的过滤器提供一个唯一的 guid，用于它的 CLSID。
注册过程将与此类似，只是使用不同的扩展名和 guid。

STEP 1: COM REGISTRATION

1.Add Registry key: HKEY_CLASSES_ROOT\CLSID\ ThreadingModel : Both

STEP 2 : REGISTER IFILTER WITH OS

There are 4 steps to registering the filter-extension mapping with OS:

HKEY_CLASSES_ROOT\<.ext>(Default) -->

HKEY_CLASSES_ROOT\(Default) -->

HKEY_CLASSES_ROOT\\PersistentHandler(Default) -->

HKEY_CLASSES_ROOT\\PersistentHandler\PersistentAddinsRegistered\IID_IFilter\ (Default) -->

Now we're all set to regiter our product with WSS (Windows Sharepoint Services) or MOSS( Microsoft Office Sharepoint Server).

STEP 3: REGISTER FILTER EXTENSION WITH MOSS

Add the filter-extension to the File types crawled: Start -> Program -> Microsoft Office Server -> SharePoint 3.0 Central Administration -> -> Search Settings -> File Types -> New File Type (Add extension here)

Add the following registry keys:

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0 \Search\Applications\\Gather\Portal_Content\Extensions\ExtensionList]

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0\Search\Setup\Filters.ext] Default = (value not set) Extension = FileTypeBucket REG_DWORD = 0x00000001 (1) MimeTypes =

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0\Search\Setup\ContentIndexCommon\Filters\Extension.ext] Default REG_MULTI_SZ = IFIlter CLASSID

Finally, recycle the Search Service by executing the following command from the command window:

D:> net stop osearch

D:> net start osearch

搜索服务器是否传递 URL 而不是本地文件名？
LoadIFilter function 是您将获得文件路径名的地方。正是在此处创建读取索引文本而不是实际文件的 IFilter 实例。

如果它为尚未编入索引的 URL 调用 IFilter::Init 该怎么办？
如果索引文件不存在，您将无法建立索引，因此返回可用的 error codes 之一。 .

如果需要很长时间，预处理应用程序将需要从文档中提取文本。在 LoadIFilter 函数(搜索应用程序传递文件的 url/文件路径)期间处理文件时，文本将需要存储在 IFilter 可以访问它的位置。使用文件的 url/filepath，Ifilter 必须能够确定先前提取的文本在哪里。
当 IFilter 可以加载文本并解析它而不是“实际”文件时。绕过了长时间搜索爬网时间的需要。

如果您不打算让预处理器处理整个站点，则需要多次通过搜索爬虫才能获得所需的内容。
假设爬虫每天晚上都在进行增量爬网。
添加文件的第一天，增量爬网会选取该文件并将其传递给 LoadIFilter。该函数查找并看不到文件的任何预处理文本，因此它将路径添加到配置文件(或列表)并返回错误代码。
该文件不会添加到搜索结果中。
预处理器，在不同的时间，查看配置列表，看到有一个文件要处理并开始工作。完成后，它会存储文本并从配置列表中删除该文件。
下次爬虫运行时，它会找到文件及其存储的文本进行解析。

这个过程开始变得有点复杂，我会担心爬虫和预处理器必须很好地通信。此外，增量爬网可能需要预处理器在提取文本后“触摸”文件。

在这一点上，最好开发一些东西，看看会发生什么，到目前为止这只是一个理论算法。

希望这是有帮助的。

关于sharepoint - 如何在 Microsoft Search Server 2008 中创建用于索引重量级格式的预处理应用程序？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/486977/

25

4

0

文章推荐： asp.net - 以 ASP.NET 形式提供 'review' 阶段的干净方式

文章推荐： asp.net-mvc - 在 ASP.NET MVC 中使用 Fiddler 调试 AJAX

文章推荐： .net - 安装项目未安装引用的项目内容文件

文章推荐： xml - 任何允许指定约束(如无循环引用)的 XML 模式语言？

java - 以 Clojure 格式(java.util.Formatter)、cl 格式(Common Lisp 格式)以编程方式控制填充？
有没有办法使用 Clojure format(基于 java.util.Formatter)或 cl-format(基于 Common Lisp 的format) 以编程方式设置空格填充？如果您事先知
java - 在数据库和 postman 上无法看到实际上传的文件(.pdf 格式)格式？
我正在尝试创建一个用户实体以及数据/文件(pdf格式)。上传并保存到数据库很好，但是当我让用户进入 postman 时尝试发送获取请求方法，然后在数据字段中显示一些糟糕的数据，而且我无法在数据库中看到
java - 将字符串转换为 ASCII 格式，然后再转换为 HEX 格式
我必须将值为 {"STX","ETX"} 的普通字符串数组转换为十六进制值，并且我应该根据 http://www.asciitable.com/ 得到 {2,3} . 最佳答案听起来你想要一个 Ma
flutter - dartfmt vs dart 格式 vs flutter 格式
我想格式化我的代码，但不确定哪种格式类型最适合我的项目需要。我发现仅对于 dart 和 flutter 项目(我都有)，有不止一个选项可用于格式化编程语言/框架中预先构建的代码。 Dart : da
excel - 我的 excel 文件是德国(德语)格式，想更改为英语(英国)格式
我已经尝试了多个代码，例如这样 Sub DateFixer() Application.ScreenUpdating = False Application.Calculation =
java - 当我查询 SOLR 时，我希望输出为 csv 格式，但输出仍然为 javabin 格式
SolrQuery query = new SolrQuery(); query.setQuery("*:*"); query.add("wt","csv"); server.query(query)
c++ - 将 QString 日期(RFC 822 格式)转换为另一种基于文化的 QString 格式
我有一个包含多个字符串的数据库，我从查询中获取了这些记录，并且我在 QString 中收到了这种格式的数据: "Mon, 13 Nov 2017 09:48:45 +0000" 所以，我需要根据文化来
xml - 如何在未安装 Excel 的情况下将 DBGrid 导出为 OOXML 格式(Excel 2007/2010 格式)？
我有一个 Delphi 2007 DBGrid，我想让用户以更新的 Excel 格式 (OOXML) 保存它，但我的标准是用户不需要安装 Excel。有没有人知道任何已经这样做的组件？是的，我已经搜索
ruby-on-rails - 在 rails 3.1 中更改 View 格式(提供移动 html 格式，回退到普通 html)
我正在我们的普通 html 站点旁边创建一个移动站点。使用 rails 3.1。移动站点在子域 m.site.com 中访问。我已经定义了移动格式(Mime::Type.register_alias
xmlstarlet 格式
我正在尝试使用 xmlstarlet 格式化 xml 文件，但我不想创建新的 xml 文件。我试过了 xmlstarlet fo --inplace --indent-tab --omit-decl
Excel 格式
我在 A 列中有一个带有文本的电子表格。例如 A1=MY TEXT1 A2=MY TEXT2 A3=MY TEXT3 A4=MY TEXT4 A5=MY TEXT5 我想在文本的前后添加撇号结果是
解析haskell保留注释/格式
我想做一些源代码转换(自动导入列表清理)，我想保留注释和格式。我听说过一些关于解析器这样做的事情，我认为是 ghc 解析器。看起来我可以通过从文件中提取内容来使用 hs-src-exts Langu
用于使值相等的 Excel 格式
我在 Excel 中工作，我想根据另一张表中的列表找出一张表中是否有匹配项。我已将值粘贴到列表中，并希望从另一张表中返回它们的相应值。包含字母和数字的单元格可以正常工作(例如:D5765000)，但
django - DurationField 格式
我有一个 DurationField在我的模型中定义为 day0 = models.DurationField('Duration for Monday', default=datetime.time
wmi - PNPDeviceID 格式
我正在为我的应用程序开发 WMI 查询。它需要为给定的 VID/PID 找到分配的虚拟 COM 端口。使用 WMI Code Creator 我发现...... 命名空间:root\CIMV2 类:W
swift - NSTextList 格式
我试图弄清楚如何使用 NSTextList，但除了 this SO question 之外，在网上几乎没有找到有用的信息。和 the comment in this blog . 使用这个我已经能够创
Oracle last_ddl_time 格式
我要查询all_objects表在哪里last_ddl_time='01 jan 2010'但它拒绝日期格式... 任何机构给我查询的确切格式？最佳答案正如 AKF 所说，您应该使用 Trunc除
Java JEditorPane 格式
我试图在我的应用程序中实现聊天功能。我使用了 2 个 JEditorPane。一个用于保存聊天记录，另一个用于将聊天发送到前一个 JEditorPane。 JEditorPane 是 text/h
assembly - 玩具编译器的输出语言/格式
我在大学里修了一个编译器类(class)，内容非常丰富，很有趣，尽管也很多工作。既然给了我们要实现的语言规范，所以我学不到的一件事就是语言设计。我现在正在考虑创建一种有趣的简单玩具语言，以便我可以玩耍
gradle - Gradle异常的结构/格式
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic

首页

博学

6Ren·AI

商城

sharepoint - 如何在 Microsoft Search Server 2008 中创建用于索引重量级格式的预处理应用程序？