- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个带有启用了FileStream的表的SQL Server 2008数据库。对于该问题的其余部分,我将将此表称为Tbl_FileStream。
Tbl_FileStream包含数十万个文件,范围从PDF到JPG到TXT文件。
另外,Tbl_FileStream具有在FileStream上创建的全文本索引。全文索引工作出色,我有一个存储过程可以对其进行全文搜索(使用CONTAINSTABLE和RANK),并且它也很好用。
但是,当在FileStream上搜索时,全文搜索受到打击时,我发现自己全都可以返回我的位置。例如,我们要搜索短语“ et dolore”,然后我的搜索将产生表明59个文档与搜索词匹配的结果。当然,我可以找到匹配的文档标题,因为我将文档标题存储在Tbl_FileStream中,但是我真正需要的是在实际文件中获取搜索词周围的文本。
例如,假设我有一个文本文件,其中包含以下拉丁语-
Lorem ipsum dolor就座,set diam nonumy eirmod tempor invitunt ut labour et dolore magna aliquyam erat,sed diam voluptua在Vero eos etAccusam和Justo duo dolores等处。 Stet Clita Kasd Gubergren,没有大海,也没有Lorem ipsum dolor坐下。
使用SQL Server的全文本搜索功能,如果我要搜索“ et dolore”一词,那么我真正需要返回给我的是任意数目的单词(大约10个),继续在文档中找到搜索词的地方,因此我实际上会得到一些短语,例如“ ... sed diam nonumy eirmod tempor invidunt ut labour et dolore ...”。
对于那些想知道为什么世界上有人愿意这么做的人,原因是因为消费者希望快速浏览一下每次匹配中都找到搜索词的上下文。换句话说,他们希望快速浏览一下搜索结果,并尝试查看哪些文档匹配包含您要查找的内容。
这可能在SQL Server 2008中完成吗?
如果没有,那么是否有任何后端可以支持这一点?
在此先感谢您提出的所有建议和对这一棘手主题的帮助。
最佳答案
仅使用SQL Server 2008
如果您坚持使用SQL Server 2008,则必须将要搜索的每个文件的文本内容存储在数据库中。这意味着对于图像文件类型,您将必须在文件上使用OCR程序,并将文本的副本保留在数据库中,以便可以对其进行搜索。这也意味着,无论出于何种原因,如果目标文件的内容超过2 GB,您都将不得不跳跳。
因此,我们假设您在文件元数据表中具有以下列,如下所示:TextContents nvarchar(max) null
。
然后,我们可以使用类似于以下内容的方式提取上下文:
Declare @SearchTerm nvarchar(max)
Declare @MaxResultTextLen int
Set @SearchTerm = 'et dolore'
Set @MaxResultTextLen = 100
Select CharIndex(@SearchTerm, F.TextContents),
Case
When CharIndex(@SearchTerm, F.TextContents) <= @MaxResultTextLen
Then Substring(F.TextContents, 1, @MaxResultTextLen) + '...'
Else Substring(@SearchTerm
, CharIndex(@SearchTerm, R.TextContents)
- @MaxResultTextLen + Len(@SearchTerm)
, @MaxResultTextLen) + '...'
End As TextContext
From Files As F
Where Contains(F.TextContents, @SearchTerm)
关于sql-server-2008 - 全文搜索SQL Server 2008 FileStream,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4718819/
我在我的应用程序中使用 Hibernate Search。其中一个子集合被映射为 IndexedEmbedded。子对象有两个字段,一个是 id,另一个是日期(使用日期分辨率到毫秒)。当我搜索 id=
The App Engine Search API有一个 GeoPoint 字段。可以用它来进行半径搜索吗?例如,给定一个 GeoPoint,查找位于特定半径内的所有文档。 截至目前,它看起来像 Ge
客户对我正在做的员工管理项目提出了这个新要求,以允许他们的用户进行自定义 bool 搜索。 基本上允许他们使用:AND、OR、NOT、括号和引号。 实现它的最佳方法是什么?我检查了 mysql,它们使
很想知道哪个更快 - 如果我有一个包含 25000 个键值对的数组和一个包含相同信息的 MySQL 数据库,搜索哪个会更快? 非常感谢大家! 最佳答案 回答这个问题的最好方法是执行基准测试。 关于ph
我喜欢 smartcase,也喜欢 * 和 # 搜索命令。但我更希望 * 和 # 搜索命令区分大小写,而/和 ?搜索命令遵循 smartcase 启发式。 是否有隐藏在某个地方我还没有找到的设置?我宁
我有以下 Marklogic 查询,当在查询控制台中运行时,它允许我检索具有管理员权限的系统用户: xquery version "1.0-ml"; import schema namespace b
我希望当您搜索例如“A”时,所有以“A”开头的全名都会出现。因此,如果名为“Andreas blabla”的用户将显示 我现在有这个: $query = "SELECT full_name, id,
我想在我的网站上添加对人名的搜索。好友列表已经显示在页面上。 我喜欢 Facebook 这样做的方式,您开始输入姓名,Facebook 只会显示与查询匹配的好友。 http://cl.ly/2t2V0
您好,我在我的网站上进行搜索时遇到此错误。 Fatal error: Uncaught Error: Call to undefined function mysql_connect() in /ho
声明( 叠甲 ):鄙人水平有限,本文为作者的学习总结,仅供参考。 1. 搜索介绍 搜索算法包括深度优先搜索(DFS)和广度优先搜索(BFS)这两种,从起点开始,逐渐扩大
我正在为用户列表使用 FuturBuilder。我通过 futur: fetchpost() 通过 API 获取用户。在专栏的开头,我实现了一个搜索栏。那么我该如何实现我的搜索栏正在搜索呢? Cont
我正在使用 MVC5,我想搜索结果并停留在同一页面,这是我在 Controller (LiaisonsProjetsPPController) 中执行搜索操作的方法: public ActionRes
Azure 搜索中的两种方法 Upload 与 MergeOrUpload 之间有什么区别。 他们都做完全相同的事情。即,如果文档不存在,它们都会上传文档;如果文档已经存在,则替换该文档。 由于这两种
实际上,声音匹配/搜索的当前状态是什么?我目前正在远程参与规划一个 Web 应用程序,该应用程序将包含和公开记录的短音频剪辑(最多 3-5 秒,人名)的数据库。已经提出了一个问题,是否可以实现基于用户
在商业应用程序中,具有数百个面并不罕见。当然,并非所有产品都带有所有这些标记。 但是在搜索时,我需要添加一个方面查询字符串参数,其中列出了我想要返回的所有方面。由于我事先不知道相关列表,因此我必须在查
当我使用nvcc 5.0编译.cu文件时,编译器会为我提供以下信息。 /usr/bin/ld: skipping incompatible /usr/local/cuda-5.0/lib/libcud
我正在使用基于丰富的 Lucene 查询解析器语法的 Azure 搜索。我将“~1”定义为距离符号的附加参数)。但我面临的问题是,即使存在完全匹配,实体也没有排序。 (例如,“blue~1”将返回“b
我目前有 3 个类,一个包含 GUI 的主类,我在其中调用此方法,一个包含数据的客户类,以及一个从客户类收集数据并将其放入数组列表的 customerList 类,以及还包含搜索数组列表方法。 我正在
假设我有多个 6 字符的字母数字字符串。 abc123、abc231、abc456、cba123、bac231 和 bac123 。 基本上我想要一个可以搜索和列出所有 abc 实例的选择语句。 我只
我有这个表 "Table"内容: +--------+ | Serial | +--------+ | d100m | <- expected result | D100M | <- expect
我是一名优秀的程序员,十分优秀!