gpt4 book ai didi

algorithm - 与本地数据缓存配合使用的智能分页算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:28:45 25 4
gpt4 key购买 nike

这是一个我思考了很久的问题,但是我还没有写任何代码,因为我首先想解决一些我正在纠结的通用问题。这是主要的。

背景

单页 Web 应用程序向某些远程 API(在我们的控制之下)发出数据请求。然后它将此数据存储在本地缓存中并从那里提供页面。理想情况下,该应用程序在离线时仍能保持完整功能,包括创建新对象的能力。

约束

  • 假设服务器端产品数据库包含 +- 50000 个产品 (50Mb)
  • 假设没有数据库类型,我们通过 REST/GraphQL 接口(interface)与之交互
  • 假设单条商品记录<1kB
  • 假设结果集的最大负载为 256kB
  • 假设客户端最大存储空间为 5MB
  • 假设每次搜索的搜索结果集介于 0 ... 5000 个项目之间

挑战

挑战在于定义一种无状态但(网络)有效的方式从结果集中获取页面,以便确定我们将获得哪些结果。

例子

在传统分页中,当使用此 url 获取某些查询的下 100 个结果时:

https://example.com/products?category=shoes&firstResult=100&pageSize=100

搜索结果可能如下所示:

{
"totalResults": 2458,
"firstResult": 100,
"pageSize": 100,
"results": [
{"some": "item"},
{"some": "other item"},
// 98 more ...
]
}

问题在于,无法根据此信息准确获取特定页面上的对象。因为当我们请求下一页时,结果集可能已经更改(由于数据库中的更改),影响哪些项目是结果集的一部分。即使是很小的更改也会产生很大的影响:从数据库中删除的一项恰好位于结果集的第 0 页上,这将改变我们在请求所有后续页面时将获得的结果。

目标

我正在寻找一种机制来使结果集的定义独立于 future 的数据库更改,因此如果有人正在寻找鞋子并获得 2458 项的结果集,他实际上可以可靠地获取该结果集的所有页面即使它受到数据库中后来更改的影响(我打算不真正删除项目,但为此目的在它们上设置一个已删除的标志)

到目前为止的想法

我见过一个解决方案,其中结果集包含一个 "pages" 属性,它是一个数组,其中包含该页面中项目的第一个和最后一个 id。假设您的 ID 数量不断增加,并且您从未真正从数据库中删除项目,那么两个 ID 之间的项目数量是恒定的。这意味着该应用程序可以获取这两个 ID 之间的所有项目,并且始终返回完全相同的项目。此解决方案的问题在于它仅在列表按 ID 顺序排序时才有效...我需要自定义排序选项。

目前我想出的唯一方法是只发送结果集中所有 ID 的列表...这样可以通过执行 SELECT * FROM products WHERE id IN (3 ,4,6,9,...)...但这感觉很不雅...

无论如何,我希望它不要过于宽泛或过于理论化。我有一个基于 Web 的数据库,只是不知道如何使用它进行分页。我正在寻找有助于我学习的答案,而不是完整的解决方案。

最佳答案

版本控制数据库是结果集一致性的答案。每条记录都有主 ID、修改计数器(版本号)和修改/创建的时间戳。不是修改记录 r,而是添加具有相同 ID、版本号 +1 和 sysdate 的新记录以进行修改。

在获取响应中添加 DB request_time(由于客户端/服务器之间的时间可能不同,请勿使用客户端时间戳)。第一页正常提供,但您将 sysdate 作为 request_time 返回。其他页面的服务方式不同:您为每个版本化表添加诸如 modification_time <= request_time 之类的条件。

关于algorithm - 与本地数据缓存配合使用的智能分页算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41961255/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com