gpt4 book ai didi

python - 如何通过增加单个集合中的文档数量来提高 ArangoDB 2.7 中的检索查询性能

转载 作者:太空宇宙 更新时间:2023-11-03 16:57:54 26 4
gpt4 key购买 nike

我已按以下格式将数据存储在 arangoDB 2.7 中:

    {"content": "Book.xml", "type": "string", "name": "name", "key": 102}
{"content": "D:/XMLexample/Book.xml", "type": "string", "name": "location", "key": 102}
{"content": "xml", "type": "string", "name": "mime-type", "key": 102}
{"content": 4130, "type": "string", "name": "size", "key": 102}
{"content": "Sun Aug 25 07:53:32 2013", "type": "string", "name": "created_date", "key": 102}
{"content": "Wed Jan 23 09:14:07 2013", "type": "string", "name": "modified_date", "key": 102}
{"content": "catalog", "type": "tag", "name": "root", "key": 102}
{"content": "book", "type": "string", "name": "tag", "key": 103}
{"content": "bk101", "type": {"py/type": "__builtin__.str"}, "name": "id", "key": 103}
{"content": "Gambardella, Matthew", "type": {"py/type": "__builtin__.str"}, "name": "author", "key": 1031}
{"content": "XML Developer's Guide", "type": {"py/type": "__builtin__.str"}, "name": "title", "key": 1031}
{"content": "Computer", "type": {"py/type": "__builtin__.str"}, "name": "genre", "key": 1031}
{"content": "44.95", "type": {"py/type": "__builtin__.str"}, "name": "price", "key": 1031}
{"content": "2000-10-01", "type": {"py/type": "__builtin__.str"}, "name": "publish_date", "key": 1031}
{"content": "An in-depth look at creating applications with XML.", "type": {"py/type": "__builtin__.str"}, "name": "description", "key": 1031}

如将文档数量增加为 1000、10000、100000、1000000、10000000 等。平均查询响应时间随着文档数量的增加而增加,从 0.2 秒到 3.0 秒不等。我已经在这个集合上创建了哈希索引。我的问题是我们是否可以通过增加文档数量来减少这个问题。

另一方面,我还在内容组件上创建了全文索引,全文搜索中也会发生同样的情况,响应时间从 0.05 秒到 0.3 秒不等。

所以告诉我有什么办法可以进一步减少这个时间..

请告诉我我们可以进一步缩短响应时间吗?

最佳答案

不能在第一级嵌套 FOR 语句中使用索引。但是,从 ArangoDB 2.8 开始,您可以使用 array indices :

您查询的值是 data.pname[*].namedata.pname[*].type,因此让我们为它们创建索引:

db.DSP.ensureIndex({type:"hash", fields: ['data[*].type']});
db.DSP.ensureIndex({type:"hash", fields: ['data[*].name']});

现在让我们重新制定查询,以便它可以利用该索引。我们从一个简单的版本开始进行实验,并使用解释来重新验证它实际上使用了索引:

db._explain('FOR k IN DSP FILTER "modified_date" IN k.data[*].name RETURN k')
Query string:
FOR k IN DSP FILTER "modified_date" IN k.data[*].name RETURN k

Execution plan:
Id NodeType Est. Comment
1 SingletonNode 1 * ROOT
6 IndexNode 1 - FOR k IN DSP /* hash index scan */
5 ReturnNode 1 - RETURN k

Indexes used:
By Type Collection Unique Sparse Selectivity Fields Ranges
6 hash DSP false false 100.00 % [ `data[*].name` ]
("modified_date" in k.`data`[*].`name`)

因此我们看到我们可以对数组条件进行过滤,这样您就只能将要检查的文档放入内部循环中:

FOR k IN DSP FILTER "modified_date" IN k.data[*].name || "string" IN k.data[*].type
FOR p IN k.data FILTER p.name == "modified_date" || p.type == "string" RETURN p

关于python - 如何通过增加单个集合中的文档数量来提高 ArangoDB 2.7 中的检索查询性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35274525/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com