- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Azure 解决方案中使用 IFilter 从 pdf/word/其他内容中提取文本内容的最佳方法是什么?
我见过使用流的 IFilter 示例,但是流的内容应该是什么?它应该包含某种 OLE header 吗?
将原始文件内容作为流发送到 IFilter 似乎不起作用。
或者将文件保存到本地文件存储并让 IFilter 从该位置读取它们会更好吗?
最佳答案
在 azure 中使用 ifilter 会很棘手,因为桌面上常见的几个 ifilter 在 azure web/worker 角色中不可用。
您可以在 azure 中创建持久虚拟机并安装缺少的 ifilter。
但是,如果您要通过网络上传构建 lucene 索引,您可以在上传文件时将其处理为文本,然后为文本建立索引,并单独保存文件。向索引添加一个字段,以便您返回原始源文档。
可能是一种更简单的方法,但这就是我解决同样问题的方法。
关于azure - Lucene .NET Azure Blob 存储和 IFilter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7160069/
.Docx 文档似乎没有被索引。 我在 .docx 中使用了唯一的字符串,但当我搜索“one”时,未返回 .docx。 例如,以下文本: “这是第一行的文本,这是第二行的文本。” 将通过 iFilte
我需要为 Microsoft Search Server 2008 开发一个 IFilter,它执行长时间的计算以提取文本。从一个文件中提取文本可能需要 5 秒到 12 小时。我如何设计这样的 IFi
我需要在 Delphi 2010 中实现一个 IFilter,它可以搜索 Office 2007 docx 文件并返回在文档中找到的文本。 ifilter还需要使用IPersistStream接口(i
任何人都知道 IFilter 可以索引源代码文件,超出“纯文本”过滤器可以提供的范围,可能还有一个特定于编程的自定义“属性集”? 例如,我的“代码库”文件夹中有 41,000 个文件和 8,200 个
所以我被告知我可能无法访问通常用于将其 IFilter 加载到系统上的注册表或程序,因此我必须在应用程序中包含 IFilter dll 并直接从那里加载它们。我目前正在使用 CodeProject 的
我有一个问题,Adobe PDF iFilter 不能始终如一地为我们工作。因此,我们喜欢使用 Foxit 中的那个。 .问题是,如果我们安装了 Foxit iFilter,然后客户端决定重新安装 A
从哪里开始.... 我继承了一个应用程序,该应用程序使用 EPocalipse.IFilter 命名空间从以前的程序员(没有文档)那里搜索文件中的字符串。它有一些问题,第一个是 VS 项目缺少 Fil
我正在尝试使用 iFilter 从 PDF 文件中提取文本。 Adobe Reader 自带的Adobe PDF iFilter 很烂,返回HRESULT E_FAIL许多 PDF 文档的消息。 Fo
我想使用 IFilter 接口(interface)从不同的文档中提取然后搜索文本。 IFilter 接口(interface)完美地满足了这一需求,但 32/64 位组件存在问题。 主机操作系统是
我的开发团队在为我们自己的自定义文件在 Windows 7 中显示搜索结果的文本片段时遇到了问题(请注意,我们不是在谈论使用 IPreviewHandler 界面的预览 Pane )。下面显示了我对
我一直想知道使用 IFilter 提取文本的编码。 IFilter::GetText() 检索 WCHAR*,但是如果文件是用 ASCII 编码的呢?其他 Unicode 编码(例如 UTF-8 或
我正在尝试更加熟悉 itertools 模块,并找到了一个名为 ifilter 的函数。 据我了解,它根据给定的函数进行过滤和迭代,并在包含迭代元素的列表上返回一个迭代器,该函数在其上计算为 True
我正在尝试使iFilter正常工作,我正在运行Windows 10 64位以及MS SQL Server 2017/2016开发人员版本。我已经从Adobe website下载了iFilter 11的
对于某些问题 [被证明是 NP 难题] 我别无选择,只能穷举搜索。我有一组数据——为简单起见,S = ['A', 'B', 'C', ... ,'Z']并想应用一个函数 f到长度为 N 0, com
在 python 中我有以下函数: def is_a_nice_element(element, parameter): #do something return True or Fa
对于 C# 网络应用程序,我想从存储在数据库中的 PDF、DOC 等文件中索引文本。 我一直在试验 an IFilter example on Code Project这对文件系统中的文件非常有效,但
我是 Python 的新手,试图将一个旧的 Python 文件构建到 Python 3 中。我遇到了几个构建错误,我已经解决了。但在这一点上,我遇到了以上错误。我不知道如何解决这个问题。代码部分如下所
在 Azure 解决方案中使用 IFilter 从 pdf/word/其他内容中提取文本内容的最佳方法是什么? 我见过使用流的 IFilter 示例,但是流的内容应该是什么?它应该包含某种 OLE h
我一直在使用 IFilter COM 对象从文件中提取文本。我设法提取了 OLE 属性值(例如作者的值(value)、公司的值(value)等),但我不知道如何知道哪个值是作者、公司等。 CoInit
我正在尝试保存一个 IFilter 列表(接口(interface)类型),它使用 XML 序列化应用于图像,以便用户可以从他离开的地方编辑相同的图像。 [XmlRoot] public class
我是一名优秀的程序员,十分优秀!