language-agnostic - 全文搜索优化技术-6ren

language-agnostic - 全文搜索优化技术

转载作者：行者123 更新时间：2023-12-02 00:31:32

27

4

我有一本300000+字的书。
每个单词都有元数据(语法信息；解析细节和词条 [词根形式])

构建数据的最佳方式是什么，以便我可以搜索单词或单词组并快速获得结果。我也希望能够根据对元数据的要求进行搜索。

我需要能够搜索准确的短语或只搜索彼此接近的词。

我的问题是关于数据库设计和查询方法。

最佳答案

在这种情况下，我强烈推荐 Rabin–Karp 算法。尽管 Rabin-Karp 不如其他一些搜索算法快，但它擅长匹配多个模式，并且由于您说过您将搜索多个短语和词条，因此它是最合适的。平均情况和最佳情况都在 O(n + m) 中，其中 n 是 300,000 个单词的总长度，m 是您要搜索的模式的总长度。在最坏的情况下，您达到了 O(mn) 时间。

就存储数据而言，您可以使用大型哈希滚动表或更理想的 bloom filter .

这里有一些相关的问题、文章和 C 和 ruby 的实现。希望这会有所帮助。

关于language-agnostic - 全文搜索优化技术，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6513807/

27

4

0

文章推荐： attributes - 单点触控 : Understand Foundation Attributes

文章推荐： web-applications - GWT 中 DockLayoutPanels 的调整大小和滚动问题

文章推荐： .net - 销售一组 .NET 库。我需要安装程序吗？

文章推荐： blogengine.net - 我如何在 BlogML 中表示标签？

language-agnostic - 移植和迁移在编程上有区别吗？
在嵌入式系统编程的上下文中是否存在普遍差异？最佳答案这些不是正式的术语，所以这是相当主观的。迁移意味着将您的代码库移动到另一个系统(无意返回)。这也可能意味着切换到另一个工具链或编程语言。移植
language-agnostic - 如何用堆栈模拟递归？
听说任何递归算法都可以用栈来表示。最近，我一直在一个可用调用堆栈非常小的环境中编写程序。我需要做一些深度递归，所以我想知道如何重新设计任何递归算法以使用显式堆栈。例如，假设我有这样一个递归函数 f
language-agnostic - 数字是否在所有文本编码中都按顺序表示？
这个问题与语言无关，但受到这些 c/c++ 问题的启发。 How to convert a single char into an int Char to int conversion in C 假设
language-agnostic - 我如何在运行时生成和执行机器代码？
我最接近汇编的是构建我自己的 Java 类库，它加载类文件并允许您创建、编译和反编译类。在努力完成这个项目时，我想知道 Java 虚拟机实际上是如何在 JIT 优化期间在运行时生成 native 机器
language-agnostic - 半字节在编程中的使用
如标题所说的简单问题。我在 StackOverflow(和互联网)上看到了一些关于半字节用例的问题，但我不明白为什么我们需要使用半字节。我的意思是字节是计算中最小的内存单位，因此对它执行操作来操作它的
language-agnostic - 关于在多行条件表达式中放置逻辑运算符的建议
这真是一个详细的格式问题，但我每次都被它绊倒...... 对于多行条件表达式，逻辑运算符的首选位置是什么？备选方案 1:每行末尾的逻辑运算符 if (value1 == comparision1 &
language-agnostic - 哪些图书馆可以正确计算秒数以及哪些日期？
计算“2021-01-01 12:56:23.423 UTC”和“2001-01-01 00:00:00.000 UTC”之间的 SI 秒数” 为例。最佳答案 C++20 可以用下面的语法来完成:
language-agnostic - 函数中的抽象层次
我正在读一本名为“干净的代码”的书，当作者试图讲述我们如何编写一个高效的函数时卡住了。他说，“为了确保我们的函数做”一件事， “我们需要确保我们函数中的语句都处于同一抽象级别”。那么作者究竟想通过抽象
language-agnostic - 让浏览器缓存图片
我的网站上有一张相当大的图片(大约 200kb)。我没有计划在不久的将来改变它。我如何告诉浏览器缓存它？最佳答案设置正确的标题对您有很大帮助。过期时间:2012 年 4 月 15 日星期四 20
language-agnostic - 重构工具的优缺点
一般来说，重构工具的优缺点是什么？最佳答案优势如果工具对您有帮助，您更有可能进行重构。一个工具更有可能在第一次正确地进行“重命名”类型重构。一个工具可以让您在代码库上进行重构，而无需手动进行
language-agnostic - 新程序员的玩具项目
当我第一次开始自学编程时，在完成教程后，我会觉得我仍然无法用语言做任何事情。所以，我环顾四周，想找点事情做。由于我刚刚学习了一些基础知识，因此查找、阅读和添加到一个开源项目中所涉及的工作量似乎是无法克
language-agnostic - 为什么以析取范式表达代码很重要？
在我工作的公司，最近要求所有“高度可见”的 bool 逻辑必须以析取范式表示。例如(尽管这个概念与语言无关)， #if (defined(A) || defined( B )) || (define
language-agnostic - 如何表示魔方
我想知道我们如何在 mathematica 中设计一个魔方。这可能吗？我们如何使用它。我们如何决定立方体的 6 个面上的较小立方体的不同分隔。最佳答案您问的是如何定义数据结构。您的选择是任意的，只
language-agnostic - 系统托盘应用标准
对于具有系统托盘图标的应用程序的行为方式，是否有任何标准？我最近编写了一个应用程序，它大部分时间都位于系统托盘中。我把它交给了一个 friend ，她的第一 react 是双击图标进入主窗口(工作正
language-agnostic - 可分发软件的版权和合理使用
一个商业可分发软件的文本长度和/或音频片段长度是多少才能通过合理使用的阈值并侵犯所包含作品的版权？归属是否可以免除开发者的侵权行为？一个例子是在启动屏幕上使用的小说中的引用。最佳答案不幸的是，没有
language-agnostic - 开发者常用哪些技术来快速建站？
我是一名经验丰富的 C/C++/C#/Objective-C 桌面、Web 和移动程序员，我已经习惯于从头开始构建我的大部分软件。我已经使用 ASP.NET 从头开始构建了我的所有网站。对于我想测
language-agnostic - 用矩阵变换3D向量的方法
我一直在阅读有关使用矩阵转换 Vector3 的内容，并且正在努力深入研究数学并自己编写代码而不是使用现有代码。无论出于何种原因，我的学校类(class)从未包括矩阵，所以我正在填补我的知识空白。谢天
language-agnostic - 递归的相关性
所以我目前正在尝试掌握递归的概念，我理解我遇到的大部分问题，但我觉得它的使用似乎不适用于太多计算问题。不过，这只是一个新手的假设，所以我问，作为程序员，递归有很多实际用途吗？还有，用它可以解决哪些典型
language-agnostic - 规划问题的递归解决方案的最佳方法是什么？
我正在学习递归。我已经使用递归解决了一些其他问题，例如创建二叉树、汉诺塔等。所以，我明白什么是递归，但我发现自己很难规划和实现正确的递归解决方案。是否有任何关于规划、思考或实现问题递归解决方案的一般
language-agnostic - 在虚拟机中运行我的开发工具的建议
每次我需要移动到一台新机器，或者买一台笔记本电脑，或者通过不断的安装和卸载搞砸我的注册表时，我开始变得非常厌烦和厌倦设置我的所有开发工具。这么新的计划。我听说有人虚拟化他们的开发环境，这听起来是个好

首页

博学

6Ren·AI

商城

language-agnostic - 全文搜索优化技术