gpt4 book ai didi

api - 通过 HTTP API 提供大量数据的架构

转载 作者:行者123 更新时间:2023-12-04 06:29:57 25 4
gpt4 key购买 nike

我正在构建一个应用程序来通过 REST API 提供大量数据,我正在寻找一些关于如何构建它的输入。我正在使用 .NET (C# 4.0)、ASP.NET MVC 和 Sql Server 2008。

现在,我在关系数据库中有大约 40 万行,其中 +- 5% 的行通过直接进入数据库的内部应用程序全天更新。我需要通过返回自定义格式的 XML 的 REST API 来提供这些数据。但是,数据需要经过处理才能输出。好消息是,如果需要,我可以在此之前对其进行预处理。

我写了一个小的 POC 来获取数据、处理数据并将其缓存到本地 XML 文件中。由于处理这个过程需要大约一个小时才能处理所有 400k 行。缓存完成后,我只在每个请求中返回物理文件。

现在我需要能够在数据在源中更新时更新数据并更新我的缓存,这样我就不需要在每次更新单行时生成所有内容。

我正在考虑使用 AppFabric 来保留内存缓存并使用物理文件来确保万一内存缓存失效,我不需要从头开始。一旦源中的一行被更新,我就会更新缓存并写入物理文件以确保它是最新的。

所以我的主要来源将是 AppFabric 缓存,然后是物理缓存文件,作为最后的手段,从数据库中重新生成文件需要大约一个小时,并使调用它的人无法使用该文件。

我对此不太满意,但这就是我得到的。有什么建议?

非常感谢!

最佳答案

谢谢你上面的澄清。这是基于此的选项。

将表添加到您的数据库。称其为 Products_Processed(或价格,等等)。这个新表在 Products 中的每一行都有一行(例如,与源数据一对一)。这个新表中的每一行都包含相应源行的已处理数据。

每次外部应用程序在 Products 中更新一行时,您只计算该行并更新 Products_Processed 中的相应行。

以下是让代码仅在新更新的条目上运行的几种方法:

  • 在您的程序中有一个线程,每秒(或一分钟)轮询一次数据库,在自一秒(或一分钟)前的最后一秒更新的任何行上运行您的处理逻辑。这意味着您在 Product 行更新时保留时间戳(无论如何这可能是一个好主意)。
  • 如果您不想要时间戳,请在 Products 表的数据库中设置一个触发器,将更新的行添加到 Products_ToProcess 表中。轮询并在出现在那里的条目上运行您的处理逻辑,然后从 Products_ToProcess
  • 中删除
  • 在实际调用 C# 代码的产品表上使用触发器:Create and Run CLR SQLServer Trigger

  • 这种方法使您的派生数据在逻辑上接近真实来源(在包含源数据的数据库中)并减少您复制/格式化/处理数据的次数。此外,重要的是,使用久经考验的数据库提供的机制来检测/触发更改的数据将使您免于编写大量自己的同步代码。

    现在,返回您的结果实际上是输出 select * from Products_Processed .如果您只想返回特定产品的处理数据,您可以使用 SQL 和架构的全部功能;同样用于排序。整个设置应该足够快,您不需要在磁盘上缓存文件。事实上,如果您有足够的内存,MSSQL 缓存可能应该将大部分/所有处理过的数据行保留在 RAM 中,因此您很少需要进行冷选择(如果您没有足够的 RAM,请考虑几个与您的时间相比,额外的演出是值得的;在问题上投入硬件永远不会作弊;)。

    (但是,如果您真的想将其写出到磁盘,您可以将每个行记录的偏移量存储到物理文件中,并随着相应处理的数据行更新而快速更新文件中的单个数据。)

    关于api - 通过 HTTP API 提供大量数据的架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5540070/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com