- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在从事一个项目,该项目记录跨多个地区的商品价格历史记录,并且我计划将数据存储在 mongodb 集合中。
由于我对 mongodb 比较陌生,所以我很好奇对于大量数据,推荐的文档结构可能是什么。情况是这样的:
我正在记录 200 多个地区的大约 90,000 件商品的价格历史记录。我希望每小时记录每件商品的价格,并为任何给定商品提供 2 周的历史记录。结果大约是 (90000*200*24*14) ~= 60 亿个数据点,或者每个项目大约 67200 个。每天将运行一次清理查询以删除超过 14 天的记录(更具体地说,将其存档到 gzip 压缩的 json/文本文件中)。
就我将从中获取的数据而言,我主要对两件事感兴趣:1) 特定区域内特定商品的价格历史记录,以及 2) 特定商品在整个地区的价格历史记录所有地区。
在我真正开始导入这些数据和运行基准测试之前,我希望有人能够就我应该如何构建它以允许通过查询快速访问数据提供一些建议。
我正在考虑以下结构:
{
_id: 1234,
data: [
{
territory: "A",
price: 5678,
time: 123456789
},
{
territory: "B",
price: 9876
time: 123456789
}
]
}
每个项目都是它自己的文档,其中每个区域/特定区域中该项目的价格点。我遇到的问题是检索特定商品的价格历史记录。我相信我可以通过以下查询完成此操作:
db.collection.aggregate(
{$unwind: "$data"},
{$match: {_id: 1234, "data.territory": "B"}}
)
我考虑的另一种选择是将每个数据点放在其自己的文档中,并在项目和区域上放置一个索引。
// Document 1
{
item: 1234,
territory: "A",
price: 5679,
time: 123456789
}
// Document 2
{
item: 1234,
territory: "B",
price: 9676,
time: 123456789
}
我只是不确定是拥有 60 亿个文档和 3 个索引,还是拥有 90,000 个文档,每个文档有 67200 个数组对象并使用聚合来提高性能。
或者也许有一些其他的树结构或解决这个问题的方法,你们好人和 MongoDB 向导可以推荐吗?
最佳答案
我会将文档结构化为“给定地区每个固定时间间隔的产品价格”。整个模式的时间间隔是固定的,但不同的选择会产生不同的模式,并且可能需要通过测试来确定最适合您的应用程序的模式。选择 1 小时的时间间隔给出了你的第二个模式想法,总共有大约 60 亿个文档。您可以选择时间间隔为 2 周(不要)。在我看来,选择的最佳时间间隔是 1 天,所以文档看起来像这样
{
"_id" : ObjectId(...), // could also use a combination of prod_id, terr_id, and time so you get a free unique index to look up by those 3 values
"prod_id" : "DEADBEEF",
"terr_id" : "FEEDBEAD",
"time" : ISODate("2014-10-22T00:00:00.000Z"), // start of the day this document contains the data for
"data" : [
{
"price" : 1234321,
"time" : ISODate("2014-10-22T15:00:00.000Z") // start of the hour this data point is for
},
...
]
}
我喜欢 1 天的时间间隔,因为它在文档数量(主要是因为索引大小而相关)、文档大小(16MB 限制,必须通过网络传输)和旧文档易于淘汰之间取得了很好的平衡(保持 15 天,从第 15 天开始每天在某个时间点全部删除+存档)。如果您在 { "prod_id": 1, "terr_id":
}` 上放置索引,那应该可以让您有效地完成两个主要查询。您可以通过为每一天预先分配文档来获得额外的性能提升奖金,以便就地进行更新。
有一个 great blog post关于像这样管理时间序列数据,基于构建MMS监控系统的经验。我基本上从那里提出了我的想法。
关于performance - mongodb - 推荐用于大量数据点的树结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26497455/
我是一名优秀的程序员,十分优秀!