- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我决定为我的文档实现以下 ID 策略,它将文档“类型”与 ID 结合起来:
doc.id = "docType_" + Guid.NewGuid().ToString("n");
// create document in collection
这会为我的文档生成如下 ID:
usr_19d17037ea7f41a9b20db1a90f71d30d
usr_89fe82c93b264076aa1b6e1fb4813aaf
usr_2aa58c1c970a4c5eaa206a755c1c7bf4
msg_ec43510732ae47a6a5d5f323b7461d68
msg_3b03ceeb7e06490d998c3e368b435851
有了 ID 上的 RangeIndex
策略,我应该能够查询特定类型的集合。例如:
SELECT * FROM c WHERE STARTSWITH(c.id, 'usr_') AND ...
由于这是一个包含许多不同文档类型的 Web 应用程序,我的应用程序的许多查询将默认实现此 STARTSWITH
过滤器。
我主要关心的是在 ID 上使用随机 GUID 字符串。我知道在 SQL Server 中,当在聚集索引的主键上使用随机 GUID 时,我遇到了索引性能和碎片问题。
这里有类似的问题吗?似乎在 DocumentDB 中,管理索引的工作已经从您那里抽象出来了。顺序 ID 是否会以任何方式更理想/更高效?
最佳答案
tl;dr:为类型和仅限 GUID 的 ID 使用单独的字段,并在两者上使用哈希索引。
根据您问题的性质,这个答案必然会有些自以为是。让我首先解决您最关心的问题,即影响性能的索引碎片。
DocumentDB 假定使用 GUID 和散列索引(与范围索引相反)非常适合通过 GUID 查找一个匹配的实体。另一方面,如果您想通过查看字符串的开头来查找一组文档,我怀疑使用范围索引可能会更高效。这假定 STARTSWITH 仅在与范围索引一起使用时进行了优化,但我不知道它是否在使用范围索引时进行了优化。
我的建议是为类型和仅限 GUID 的 ID 使用单独的字段,并在两者上使用哈希索引。这给您带来的好处是,您可以放心,像您显示的那样的查询将具有高性能,并且将类型子句与其他参数组合在一起的查询也将能够使用至少一个索引。请注意,这种类型的散列索引(比如 2x 3 字节 = 6 字节/文档)空间效率很高,所以不用担心需要其中的两个。这两个组合应该比一个范围索引小得多,范围索引需要有足够的精度来覆盖你的类型+GUID 的整个长度。
除了已经讨论过的性能和空间原因之外,我还可以看到将类型与 GUID 组合的其他一些缺点:1) 尝试检索单个文档时(直接使用和作为外键的一部分)查找),将 GUID 分开并使用散列索引比在组合字段上使用范围索引更快且更节省空间; 2) 将类型与 ID 相结合会使某些通常需要在以后完成的迁移变得非常复杂。例如,假设您决定将用户分为作者和读者。用户是用户 ID 在其他文档类型(博客文章作者、读者评论等)中引用的外键。如果该 ID 包含类型,那么您不仅需要更改用户文档以完成迁移,还需要查找和更改每个外键。如果这两个字段(GUID 和类型)是分开的,那么您只需要更改用户文档。敏捷软件工艺在很大程度上是关于做出在未来提供灵 active 的决策。
至于顺序索引的使用,一般数据库(尤其是 NoSQL)的趋势是,提供单调递增的顺序 ID 的复杂性大于 GUID 的空间效率优势。如果您要坚持使用 DocumentDB,我建议您顺其自然并使用 GUID。
关于azure-cosmosdb - DocumentDB 索引性能/碎片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33172054/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
我在我的 CosmosDB 集合中创建了一个简单的 Pre Trigger。 function testTrigger() { var context = getContext();
我正在尝试扁平化和过滤 CosmosDB 中的 json 数据。 数据如下所示,我想展平数组变量中的所有内容,然后按数组内的特定 _id 和时间戳进行过滤: { "_id": 21032, "Firs
我正在测试 CosmosDb。我发现初始连接通常需要很多秒。我编写了一个小型 .net core 2.2 控制台应用程序来演示该问题。 static async System.Threading
我正在测试 CosmosDb。我发现初始连接通常需要很多秒。我编写了一个小型 .net core 2.2 控制台应用程序来演示该问题。 static async System.Threading
我有很多(大约 100 条)数据要与 CosmosDB 中的文档相关联。每条数据都很小(大约 100 个字节)。 我的第一个解决方案是将数据作为数组存储在文档中。这可以正常工作,但是为了将新项目附加到
据我所知,团队的官方建议是将所有数据类型放入单个集合中,例如 type=someType文档上的字段以区分类型。 现在,如果我们假设具有分区的大型数据库,其中不同的对象类型可以是: 完全不同的字段(因
这是我们要存储的示例文档: { "name": "Joe Bloggs", "locations": [ { "type": "Point", "coordinates": [1,1] }, { "t
是否可以获得的大小?每 Cosmos DB 集合中的分区?我知道门户会在 Metrics Blade 中显示集合中的前几个分区,但我对查看每个分区的大小很感兴趣。 最佳答案 我相信您应该能够通过 Co
我试图在 Cosmos 中拥有多个文档,一旦提交,其中一个将保存提交表单中的一些数据。我正在尝试使用其他一些文档来保存下拉选择列表的数据。我如何能够连接到多个 config.containerId 以
我想做一个这样的查询 g.V().match( as('foo').hasLabel('bar'), as('foo').out('baz').hasId('123'), as('foo'
我正在尝试使用以下查询来查看数据库中是否有重复项 SELECT c.VariantNo, count(1) AS jongel FROM c where c.brand = 'XXXX' AND c.
我有一个包含许多字段的大型文档,我只想从对象返回 1-2 个字段以保持吞吐量。这在 cosmosDB 中可能吗?还是我每次都需要返回整个对象? 最佳答案 使用 ReadItemAsync() 进行点读
我有一个 CosmosDB 查询: SELECT food.tags FROM food 返回这个: { "tags": [ { "name": "babyfood"
想象一下我们有一个这样的集合(示例取自 https://www.documentdb.com/sql/demo ) { "_id" : "19015", "description" :
我正在使用 MongoDB api 访问 Azure 上的 CosmosDb。我收集了数千份文件。 它们的形状是这样的: { "_id" : ObjectId("5b4f574ac2100c8
我正在尝试在 CosmosDB 中实现以下查询: SELECT * FROM c WHERE c.timestamp = (SELECT VALUE MAX(c.timestamp) FROM c )
我们可以在 cosmos Db 中添加 XML Schema 吗?如果是,我们如何查询它们?我可以将 XML 数据保存为字符串,但如何查询它们? 下面是我收藏的文档: { "id":
我研究了几个地方,但找不到有关将旧数据从 cosmosdb 存档到冷存储的选项的任何方向。我看到 AWS 中的 DynamoDb 提到您可以将 dynamodb 数据移动到 S3 中。但不确定 cos
取自:https://learn.microsoft.com/en-us/azure/cosmos-db/create-graph-dotnet 我在 .wait() 部分遇到异常: NullR
我是一名优秀的程序员,十分优秀!