gpt4 book ai didi

python - 使用 Ruby 或 Python 存储大量外部 API 数据的最佳方法

转载 作者:行者123 更新时间:2023-11-29 23:16:21 25 4
gpt4 key购买 nike

我正在尝试设计一个可以定期从外部 API“下载”大量数据的系统。

该用户可能拥有大约 600,000 条数据记录,我需要一次,然后每小时左右检查一次以协调两个数据集。

我正在考虑最终在后台任务中使用 python 或 ruby​​ 执行此操作,但我很好奇如何存储数据。

是否有可能/好主意将所有内容存储在散列为 json 的一条记录中,而不是单独复制每条记录?

如果能够索引或搜索数据而不发生任何失败,那就太好了,所以我想知道什么是最好的内存实现。

例如,如果一个用户有 500,000 条推文记录,而我想存储所有这些记录,那么哪个是更好的实现?

一条 JSON 记录 => user_1 = {id:1 twt:"blah"},{id:2 twt:"blah"},.....{id:600,000 twt:"blah"}

对比

许多记录=>
id:1 Outside_id=1 twt:"废话"

id:2 Outside_id=1 twt:"废话"

id:3 Outside_id=1 twt:"废话"

我很好奇如何找出每种方法的内存密集程度或最佳解决方案是什么。

记录要复杂得多,我想存储的每个记录可能有 40 个属性。

MySQL 或 MongoDB 是否是实现最快复制/存储的更好解决方案?

最佳答案

我认为这一切都归结为该项目最重要的需求是什么。在选择技术之前,我会尝试回答以下一些问题:

  1. 插入数据库后我需要单独访问记录吗?
  2. 我在读取数据时是否需要聚合数据(例如用于报告)?
  3. 对于项目目标来说,快速写入数据还是快速读取数据更重要?
  4. 我预计数据将增长多少?我选择的数据库技术能否轻松、廉价且可靠地扩展以支持数据量?
  5. 数据架构会改变吗?我需要像 MongoDB 这样的无模式数据库解决方案吗?
  6. 开发时间/成本、维护时间/成本以及运行程序的时间/成本之间的权衡如何?

如果不太了解您的项目或其目标的细节,我会说,为整个数据存储单个 JSON 对象通常不是一个好主意。这可能会使将来读取数据和附加数据变得更加困难。您可能应该更多地思考如何对数据进行建模并以一种当您稍后实际需要使用它时才有意义的方式在数据库中表示它。

关于python - 使用 Ruby 或 Python 存储大量外部 API 数据的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27761684/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com