gpt4 book ai didi

MySQL:搜索文件内容的最佳方式(全文搜索)

转载 作者:行者123 更新时间:2023-11-30 23:39:08 26 4
gpt4 key购买 nike

我目前正在开发一个允许用户上传演示文稿、文档和电子书(类似于 scribd 和 slideshare)的网站,因此我需要能够搜索文件的内容。我目前正在从 txt 文件中的文件中提取文本。我正在考虑 2 个选项,因为我正在使用 MySQL:

  1. 将纯文本存储在单独的表中,并使用 mysql 的全文索引进行搜索。
  2. 使用倒排索引存储单词并搜索它们。 (2 个新表 - 单词和多对多文档表)。现在,在这种情况下,我可以做些什么来处理与结果更相关的重复词。

文本将仅用于搜索。 (1) 的问题是电子书的文本可能很大,所以我考虑将其限制在(例如)50kb 或更少。(2) 也存在电子书字数过多的问题,同样,字数可能会受到限制。

那么您能指导我找到索引文本并能够进行快速全文搜索的最佳方法吗?在这种情况下,我需要充分利用 mysql。

最佳答案

我决定按照 Rob Di Marco 的建议使用 Sphinx。事实证明,它是最快的(开源的)全文搜索引擎。我在编译和让 SphinxSE 不让 mysql 崩溃时遇到了一些问题,所以我现在使用包含该插件的 MariaDB。

我选择 1.10 版本是因为实时索引。这意味着如果您只添加一行,则无需等待索引器重建整个索引。 (我知道 main+delta 解决方法,但这更容易配置和与 SphinxQL 一起使用)

另见 Some questions related to SphinxSE and RT indexes

关于MySQL:搜索文件内容的最佳方式(全文搜索),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4949934/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com