- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试基本上进行反向完整测试搜索,但不知道执行此操作的最佳方法。
基本上我有一个如下所示的关键短语表:
id - 短语
1 - “ Hello World ”
2 - “再见世界”
3 - “这是我的世界”
然后我有一个设置的字符串,例如“Welcome to the hello world group”。我想查找表中与短语完全匹配的所有行的 ID。意思是“o the”将不匹配,因为该词是“to the”。另外“ello”也不会匹配,因为世界是“hello”。
使用全文搜索,可以通过搜索以下内容轻松实现:
反对( bool 模式下的“ Hello World ”);
问题是,我不相信我可以使用全文搜索,因为全文搜索会找到包含单个短语的所有行。我想要匹配一组的所有短语(来自一组已知的短语)。
我知道如何使用正则表达式执行此操作,但速度很慢。在包含 400,000 个关键短语的表上,花费了超过 40 秒的时间:
其中“我知道我要搜索的数据位于此处”REGEXP CONCAT('[[:<:]]', phrases
, '[[:>:]]')
我需要的是一种更优化的方法来做到这一点。即使我必须暂时将其添加到表中,而不实际单独执行循环检查每个关键字,我如何才能将其作为全文搜索来执行。
我非常感谢您的反馈,因为这确实导致我的网站在添加新数据方面滞后。
最佳答案
如果您愿意考虑从数据库中读取短语并构建用于优化短语检测的单独数据结构的解决方案,则有两种主要技术可以解决该问题。哪一种最适合您取决于多种因素,特别是:
选项 1:短语的哈希表 这意味着您只需将每个短语作为键插入哈希表(又名字典或 HashMap ) 在许多编程语言中)。短语 id 成为值。更新既快速又简单,但检测给定字符串中的短语可能很困难:首先,您需要对字符串进行标记,并确保短语仅出现在标记边界之间。其次,您不仅需要在哈希中查找每个标记,还需要查找每对、三重、四重等连续标记。如果目标字符串通常很短,这仍然很有效。您还可以在磁盘上维护哈希表的副本,例如使用伯克利数据库。大多数编程语言的标准库中都有现成可用的模块。
选项 2:搜索 trie(或者稍微高级一点,最小化搜索 trie 或有限状态机)。这可以通过非常节省空间的方式实现,但通常比哈希表大(尽管 400k 条目根本不会成为问题)。短语检测期间的一大优点是,在进行查找之前无需剪切标记(或标记边界之间的候选短语)。相反,您在文本中的每个候选起始位置执行最长匹配查找。存储在磁盘上是可能的,尽管在大多数编程语言中不存在用于此的标准库模块。在 trie 中更新非常容易,但在最小化 trie 或 FST 中可能会变得困难(并且可能耗时)。
两个选项都允许在磁盘上维护数据结构(或将其副本存储在磁盘上,而实际查找发生在内存中)。但您不会获得交易安全性或容错性(我知道您并不寻求这些)。
关于MySQL:进行向后全文搜索的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9455890/
我想了解 Ruby 方法 methods() 是如何工作的。 我尝试使用“ruby 方法”在 Google 上搜索,但这不是我需要的。 我也看过 ruby-doc.org,但我没有找到这种方法。
Test 方法 对指定的字符串执行一个正则表达式搜索,并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
Replace 方法 替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
Raise 方法 生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
Execute 方法 对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
Clear 方法 清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。 说明 在错误处理后,使用 Clear 显式地清除 Err 对象。此
CopyFile 方法 将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
Copy 方法 将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
Close 方法 关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。 说明 下面例子举例说明如何使用 Close 方
BuildPath 方法 向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
GetFolder 方法 返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
GetFileName 方法 返回指定路径(不是指定驱动器路径部分)的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
GetFile 方法 返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
GetExtensionName 方法 返回字符串,该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
GetDriveName 方法 返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
GetDrive 方法 返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
GetBaseName 方法 返回字符串,其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
GetAbsolutePathName 方法 从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
FolderExists 方法 如果指定的文件夹存在,则返回 True;否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
FileExists 方法 如果指定的文件存在返回 True;否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS
我是一名优秀的程序员,十分优秀!