gpt4 book ai didi

php - Mediawiki 运行rebuildtextindex.php 使得短语搜索需要几分钟

转载 作者:行者123 更新时间:2023-11-29 18:19:55 25 4
gpt4 key购买 nike

我继承了一个生产中的 mediawiki 服务器,该服务器由 python 脚本使用大型数据集自动生成页面。这个特定的 wiki 上大约有 200 万个页面。我们注意到,一些短语搜索没有出现任何明显应该出现的结果。所以我们按照 mediawiki 的规定运行maintenance/rebuildtextindex.php。现在搜索结果已正确返回。问题是单词搜索得很好,但短语却不行。例如。不带引号的“word1 word2”会在几秒钟或更短的时间内返回结果,但带引号实际上需要几分钟时间,浏览器会提示“正在等待 [domain]...”,然后才会最终返回结果。

我尝试调查此脚本的问题,mediawiki 版本是 1.24,因此我尝试在删除搜索索引表和不删除搜索索引表的情况下运行该脚本。两者都会带来相同的结果。

我是 mediawiki 的新手,有足够的 php 知识来理解基本的 php,我对 SQL 没问题,但看不出我缺少什么。如何才能更快地进行短语搜索?

最佳答案

Native MediaWiki 使用 MySQL 全文索引,这并不是真正适用于数十亿个单词(假设每页有一千个单词 "word1 word2" 将转换为具有 10^18 行的 JOIN...) 。您可能应该使用专为搜索而开发的技术(例如通过 CirrusSearch 扩展的 ElasticSearch)。

关于php - Mediawiki 运行rebuildtextindex.php 使得短语搜索需要几分钟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46675983/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com