gpt4 book ai didi

database - 设计非常大的数据库来搜索文本

转载 作者:太空狗 更新时间:2023-10-30 01:51:42 24 4
gpt4 key购买 nike

我们需要设计一个系统,允许用户在大文本中通过不同的关键字进行搜索,并且在未来,还需要创建一些关于该关键字在一段时间内所有文章中出现频率的基本报告。

我们将:

  • 每天新增约 200,000 篇文章
  • 每篇文章正文约2KB
  • 文章保存6个月

为此,我们提出了以下解决方案:

  • 创建一个 SOLR 存储库来存储文章
  • 使用MySQL数据库存储文章附加信息

系统会通过关键字搜索SOLR,然后在MySQL中查找结果以获取额外的信息。

那么,这是一个好的方法吗?

如果大多数搜索只针对上个月添加的文章,保留两个数据库是否是个好主意,一个包含上个月添加的文章以用于大多数搜索,另一个包含所有文章?

如果您有任何关于如何改进这一点的提示/技巧,我们将不胜感激。

提前致谢!

最佳答案

我认为您的解决方案非常好。如果您想对常见查询获得更快的响应,我会评估在 SOLR 之前放置一个内存缓存实例。

我不确定这两个数据库,您必须了解与随着时间的推移将记录从第一个数据库移动到第二个数据库的负担相比,性能优势是什么。我怀疑是否有巨大的好处,但这只是直觉,不要相信我的话并进行实验。

此外,您是否考虑过这样一个事实:如果您的数据集变得非常大,您可能需要一些可横向扩展的解决方案?

关于database - 设计非常大的数据库来搜索文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9259425/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com