azure - Lucene .NET Azure Blob 存储和 IFilter-6ren

azure - Lucene .NET Azure Blob 存储和 IFilter

转载作者：行者123 更新时间：2023-12-01 07:38:36

37

4

在 Azure 解决方案中使用 IFilter 从 pdf/word/其他内容中提取文本内容的最佳方法是什么？

我见过使用流的 IFilter 示例，但是流的内容应该是什么？它应该包含某种 OLE header 吗？

将原始文件内容作为流发送到 IFilter 似乎不起作用。

或者将文件保存到本地文件存储并让 IFilter 从该位置读取它们会更好吗？

最佳答案

在 azure 中使用 ifilter 会很棘手，因为桌面上常见的几个 ifilter 在 azure web/worker 角色中不可用。

您可以在 azure 中创建持久虚拟机并安装缺少的 ifilter。

但是，如果您要通过网络上传构建 lucene 索引，您可以在上传文件时将其处理为文本，然后为文本建立索引，并单独保存文件。向索引添加一个字段，以便您返回原始源文档。

可能是一种更简单的方法，但这就是我解决同样问题的方法。

关于azure - Lucene .NET Azure Blob 存储和 IFilter，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7160069/

37

4

0

文章推荐： GreenDao 查询 OR 内 AND

文章推荐： javascript - 用 Javascript 找出最大的质因数

文章推荐： macos - 过滤 time(1) 输出以仅获取时间值

ifilter - 用于 docx 解析器错误的 word ifilter
.Docx 文档似乎没有被索引。我在 .docx 中使用了唯一的字符串，但当我搜索“one”时，未返回 .docx。例如，以下文本: “这是第一行的文本，这是第二行的文本。” 将通过 iFilte
sharepoint - 如何实现用于索引重量级格式的 IFilter？
我需要为 Microsoft Search Server 2008 开发一个 IFilter，它执行长时间的计算以提取文本。从一个文件中提取文本可能需要 5 秒到 12 小时。我如何设计这样的 IFi
Delphi IFilter 实现
我需要在 Delphi 2010 中实现一个 IFilter，它可以搜索 Office 2007 docx 文件并返回在文档中找到的文本。 ifilter还需要使用IPersistStream接口(i
indexing - 是否存在用于索引源代码文件的 IFilter？
任何人都知道 IFilter 可以索引源代码文件，超出“纯文本”过滤器可以提供的范围，可能还有一个特定于编程的自定义“属性集”？例如，我的“代码库”文件夹中有 41,000 个文件和 8,200 个
c# - 在没有注册表的情况下加载 IFilter
所以我被告知我可能无法访问通常用于将其 IFilter 加载到系统上的注册表或程序，因此我必须在应用程序中包含 IFilter dll 并直接从那里加载它们。我目前正在使用 CodeProject 的
c# - 以编程方式确定安装了哪些 iFilters
我有一个问题，Adobe PDF iFilter 不能始终如一地为我们工作。因此，我们喜欢使用 Foxit 中的那个。 .问题是，如果我们安装了 Foxit iFilter，然后客户端决定重新安装 A
C# IFilter 在解决方案中安装不正确？
从哪里开始.... 我继承了一个应用程序，该应用程序使用 EPocalipse.IFilter 命名空间从以前的程序员(没有文档)那里搜索文件中的字符串。它有一些问题，第一个是 VS 项目缺少 Fil
pdf - 如何使用特定的 PDF IFilter
我正在尝试使用 iFilter 从 PDF 文件中提取文本。 Adobe Reader 自带的Adobe PDF iFilter 很烂，返回HRESULT E_FAIL许多 PDF 文档的消息。 Fo
c# - 库 IFilter 的问题
我想使用 IFilter 接口(interface)从不同的文档中提取然后搜索文本。 IFilter 接口(interface)完美地满足了这一需求，但 32/64 位组件存在问题。主机操作系统是
Windows 搜索 - IFilter 搜索词突出显示
我的开发团队在为我们自己的自定义文件在 Windows 7 中显示搜索结果的文本片段时遇到了问题(请注意，我们不是在谈论使用 IPreviewHandler 界面的预览 Pane )。下面显示了我对
c++ - 使用 IFilter 检索的文本的编码是什么？
我一直想知道使用 IFilter 提取文本的编码。 IFilter::GetText() 检索 WCHAR*，但是如果文件是用 ASCII 编码的呢？其他 Unicode 编码(例如 UTF-8 或
python - itertools.ifilter 对比过滤器对比列表推导
我正在尝试更加熟悉 itertools 模块，并找到了一个名为 ifilter 的函数。据我了解，它根据给定的函数进行过滤和迭代，并在包含迭代元素的列表上返回一个迭代器，该函数在其上计算为 True
pdf - 如何在MSSQL Server 2017中使用Adobe iFilter 11
我正在尝试使iFilter正常工作，我正在运行Windows 10 64位以及MS SQL Server 2017/2016开发人员版本。我已经从Adobe website下载了iFilter 11的
python - itertools.ifilter 与 IPython 并行
对于某些问题 [被证明是 NP 难题] 我别无选择，只能穷举搜索。我有一组数据——为简单起见，S = ['A', 'B', 'C', ... ,'Z']并想应用一个函数 f到长度为 N 0, com
python - 如何为 Python itertools.ifilter 函数提供额外的参数？
在 python 中我有以下函数: def is_a_nice_element(element, parameter): #do something return True or Fa
c# - 在 C# 中使用 IFilter 并从数据库而不是文件系统中检索文件
对于 C# 网络应用程序，我想从存储在数据库中的 PDF、DOC 等文件中索引文本。我一直在试验 an IFilter example on Code Project这对文件系统中的文件非常有效，但
Python 3，模块 'itertools' 没有属性 'ifilter'
我是 Python 的新手，试图将一个旧的 Python 文件构建到 Python 3 中。我遇到了几个构建错误，我已经解决了。但在这一点上，我遇到了以上错误。我不知道如何解决这个问题。代码部分如下所
azure - Lucene .NET Azure Blob 存储和 IFilter
在 Azure 解决方案中使用 IFilter 从 pdf/word/其他内容中提取文本内容的最佳方法是什么？我见过使用流的 IFilter 示例，但是流的内容应该是什么？它应该包含某种 OLE h
c++ - 使用 IFilter C++ 获取 OLE 属性
我一直在使用 IFilter COM 对象从文件中提取文本。我设法提取了 OLE 属性值(例如作者的值(value)、公司的值(value)等)，但我不知道如何知道哪个值是作者、公司等。 CoInit
c# - 如何序列化 List (Nokia Imaging SDK)？
我正在尝试保存一个 IFilter 列表(接口(interface)类型)，它使用 XML 序列化应用于图像，以便用户可以从他离开的地方编辑相同的图像。 [XmlRoot] public class

首页

博学

6Ren·AI

商城

azure - Lucene .NET Azure Blob 存储和 IFilter