gpt4 book ai didi

neo4j - 让我的 Neo4j 查询更快

转载 作者:行者123 更新时间:2023-12-01 11:13:38 25 4
gpt4 key购买 nike

我正在为我们的应用程序评估 Neo4j,现在正处于性能成为问题的地步。我创建了许多节点和边缘,我正在对其进行一些查询。以下是该数据库中节点和边数据的详细信息:

Detail of nodes/edges in database

我正在尝试执行遍历此图的黄色箭头的搜索。到目前为止,我有以下查询:

MATCH (n:LABEL_TYPE_Project {id:'14'})
-[:RELATIONSHIP_scopes*1]->(m:LABEL_TYPE_PermissionNode)
-[:RELATIONSHIP_observedBy*1]->(o:LABEL_TYPE_Item)
WHERE m.id IN ['1', '2', '6', '12', '12064', '19614', '19742', '19863', '21453', '21454', '21457', '21657', '21658', '31123', '31127', '31130', '47691', '55603', '55650', '56026', '56028', '56029', '56050', '56052', '85383', '85406', '85615', '105665', '1035242', '1035243']
AND o.content =~ '.*some string.*'
RETURN o
LIMIT 20

(以上变量路径已更新,见“更新2”)

上述查询耗时 1200 毫秒,这简直令人难以接受。它只返回请求的 20 个项目。如果我想要相同的计数,这需要永远:

MATCH ... more of the same ...
RETURN count(o)

上面的查询需要很多分钟。这是在 CentOS 上运行的 Neo4j 2.2.0-M03 社区。大约有 385,000 个节点,170,000 个 Item 类型。

我已经在所有 id 字段上创建了索引(以编程方式,index().forNodes(...).add(...)),也在内容字段(CREATE INDEX ... 语句)。

我的查询是否有根本性的改进?我可以尝试的事情?

非常感谢。

这个问题是根据他们的建议从 Google 上的 Neo4j 讨论组转移过来的。


更新1

根据要求:

:schema

给予:

Indexes
ON :LABEL_TYPE_Item(id) ONLINE
ON :LABEL_TYPE_Item(active) ONLINE
ON :LABEL_TYPE_Item(content) ONLINE
ON :LABEL_TYPE_PermissionNode(id) ONLINE
ON :LABEL_TYPE_Project(id) ONLINE

No constraints

(这是更新,见“更新2”)


更新2

我对查询做了以下值得注意的改进:

  • 真遗憾,我确实为所有 TYPE_Project 设置了 super 节点(不是故意的,只是搞乱了我正在使用的导入算法),我现在将其删除
  • 我有很多可能是正确数据类型的“字符串”,例如整数、 bool 值,我现在将它们原样导入(您会在下面更新的查询中看到我删除了很多引号)
  • 正如所指出的,我有可变长度的路径并且我修复了它们
  • 正如所指出的,我应该有唯一性索引而不是常规索引,我修复了它

因此:

:schema

现在给出:

Indexes
ON :LABEL_TYPE_Item(active) ONLINE
ON :LABEL_TYPE_Item(content) ONLINE
ON :LABEL_TYPE_Item(id) ONLINE (for uniqueness constraint)
ON :LABEL_TYPE_PermissionNode(id) ONLINE (for uniqueness constraint)
ON :LABEL_TYPE_Project(id) ONLINE (for uniqueness constraint)

Constraints
ON (label_type_item:LABEL_TYPE_Item) ASSERT label_type_item.id IS UNIQUE
ON (label_type_project:LABEL_TYPE_Project) ASSERT label_type_project.id IS UNIQUE
ON (label_type_permissionnode:LABEL_TYPE_PermissionNode) ASSERT label_type_permissionnode.id IS UNIQUE

查询现在看起来像这样:

MATCH (n:LABEL_TYPE_Project {id:14})
-[:RELATIONSHIP_scopes]->(m:LABEL_TYPE_PermissionNode)
-[:RELATIONSHIP_observedBy]->(o:LABEL_TYPE_Item)
WHERE m.id IN [1, 2, 6, 12, 12064, 19614, 19742, 19863, 21453, 21454, 21457, 21657, 21658, 31123, 31127, 31130, 47691, 55603, 55650, 56026, 56028, 56029, 56050, 56052, 85383, 85406, 85615, 105665, 1035242, 1035243]
AND o.content =~ '.*some string.*'
RETURN o
LIMIT 20

上面的查询现在需要大约。 350 毫秒。

我仍然想要相同的计数:

MATCH ...
RETURN count(0)

上面的查询现在需要大约。 1100 毫秒。虽然这要好得多,而且对于这个特定的查询来说几乎不能接受,但我已经发现一些更复杂的查询本来就需要更长的时间。因此,在此处进一步改进此查询会很棒。

此处要求的是 RETURN o 查询的 PROFILE(用于改进的查询):

Compiler CYPHER 2.2

Planner COST

Projection
|
+Limit
|
+Filter(0)
|
+Expand(All)(0)
|
+Filter(1)
|
+Expand(All)(1)
|
+NodeUniqueIndexSeek

+---------------------+---------------+-------+--------+-------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Operator | EstimatedRows | Rows | DbHits | Identifiers | Other |
+---------------------+---------------+-------+--------+-------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Projection | 1900 | 20 | 0 | m, n, o | o |
| Limit | 1900 | 20 | 0 | m, n, o | { AUTOINT32} |
| Filter(0) | 1900 | 20 | 131925 | m, n, o | (hasLabel(o:LABEL_TYPE_Item) AND Property(o,content(23)) ~= /{ AUTOSTRING31}/) |
| Expand(All)(0) | 4993 | 43975 | 43993 | m, n, o | (m)-[:RELATIONSHIP_observedBy]->(o) |
| Filter(1) | 2 | 18 | 614 | m, n | (hasLabel(m:LABEL_TYPE_PermissionNode) AND any(-_-INNER-_- in Collection(List({ AUTOINT1}, { AUTOINT2}, { AUTOINT3}, { AUTOINT4}, { AUTOINT5}, { AUTOINT6}, { AUTOINT7}, { AUTOINT8}, { AUTOINT9}, { AUTOINT10}, { AUTOINT11}, { AUTOINT12}, { AUTOINT13}, { AUTOINT14}, { AUTOINT15}, { AUTOINT16}, { AUTOINT17}, { AUTOINT18}, { AUTOINT19}, { AUTOINT20}, { AUTOINT21}, { AUTOINT22}, { AUTOINT23}, { AUTOINT24}, { AUTOINT25}, { AUTOINT26}, { AUTOINT27}, { AUTOINT28}, { AUTOINT29}, { AUTOINT30})) where Property(m,id(0)) == -_-INNER-_-)) |
| Expand(All)(1) | 11 | 18 | 19 | m, n | (n)-[:RELATIONSHIP_scopes]->(m) |
| NodeUniqueIndexSeek | 1 | 1 | 1 | n | :LABEL_TYPE_Project(id) |
+---------------------+---------------+-------+--------+-------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

这里是 RETURN count(o) 查询的 PROFILE(用于改进的查询):

Compiler CYPHER 2.2

Planner COST

Limit
|
+EagerAggregation
|
+Filter(0)
|
+Expand(All)(0)
|
+Filter(1)
|
+Expand(All)(1)
|
+NodeUniqueIndexSeek

+---------------------+---------------+--------+--------+-------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Operator | EstimatedRows | Rows | DbHits | Identifiers | Other |
+---------------------+---------------+--------+--------+-------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Limit | 44 | 1 | 0 | count(o) | { AUTOINT32} |
| EagerAggregation | 44 | 1 | 0 | count(o) | |
| Filter(0) | 1900 | 101 | 440565 | m, n, o | (hasLabel(o:LABEL_TYPE_Item) AND Property(o,content(23)) ~= /{ AUTOSTRING31}/) |
| Expand(All)(0) | 4993 | 146855 | 146881 | m, n, o | (m)-[:RELATIONSHIP_observedBy]->(o) |
| Filter(1) | 2 | 26 | 850 | m, n | (hasLabel(m:LABEL_TYPE_PermissionNode) AND any(-_-INNER-_- in Collection(List({ AUTOINT1}, { AUTOINT2}, { AUTOINT3}, { AUTOINT4}, { AUTOINT5}, { AUTOINT6}, { AUTOINT7}, { AUTOINT8}, { AUTOINT9}, { AUTOINT10}, { AUTOINT11}, { AUTOINT12}, { AUTOINT13}, { AUTOINT14}, { AUTOINT15}, { AUTOINT16}, { AUTOINT17}, { AUTOINT18}, { AUTOINT19}, { AUTOINT20}, { AUTOINT21}, { AUTOINT22}, { AUTOINT23}, { AUTOINT24}, { AUTOINT25}, { AUTOINT26}, { AUTOINT27}, { AUTOINT28}, { AUTOINT29}, { AUTOINT30})) where Property(m,id(0)) == -_-INNER-_-)) |
| Expand(All)(1) | 11 | 26 | 27 | m, n | (n)-[:RELATIONSHIP_scopes]->(m) |
| NodeUniqueIndexSeek | 1 | 1 | 1 | n | :LABEL_TYPE_Project(id) |
+---------------------+---------------+--------+--------+-------------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

剩余建议:

  • 使用 MATCH ... WITH x MATCH ...->(x) 语法:到目前为止,这对我一点帮助都没有
  • 使用Lucene indexes : 仍然要做 在“更新 3”中查看结果
  • 使用预计算:这对我没有帮助,因为查询会变得相当多变

更新 3

我一直在玩全文搜索,并将 content 属性编入索引,如下所示:

IndexManager indexManager = getGraphDb().index();
Map<String, String> customConfiguration = MapUtil.stringMap(IndexManager.PROVIDER, "lucene", "type", "fulltext");
Index<Node> index = indexManager.forNodes("INDEX_FULL_TEXT_content_Item", customConfiguration);
index.add(node, "content", value);

当我运行以下查询时,这大约需要。 1200 毫秒:

START o=node:INDEX_FULL_TEXT_content_Item("content:*some string*")
MATCH (n:LABEL_TYPE_Project {id:14})
-[:RELATIONSHIP_scopes]->(m:LABEL_TYPE_PermissionNode)
-[:RELATIONSHIP_observedBy]->(o:LABEL_TYPE_Item)
WHERE m.id IN [1, 2, 6, 12, 12064, 19614, 19742, 19863, 21453, 21454, 21457, 21657, 21658, 31123, 31127, 31130, 47691, 55603, 55650, 56026, 56028, 56029, 56050, 56052, 85383, 85406, 85615, 105665, 1035242, 1035243]
RETURN count(o);

这是此查询的 PROFILE:

Compiler CYPHER 2.2

Planner COST

EagerAggregation
|
+Filter(0)
|
+Expand(All)(0)
|
+NodeHashJoin
|
+Filter(1)
| |
| +NodeByIndexQuery
|
+Expand(All)(1)
|
+NodeUniqueIndexSeek

+---------------------+---------------+--------+--------+-------------+------------------------------------------------------------------------+
| Operator | EstimatedRows | Rows | DbHits | Identifiers | Other |
+---------------------+---------------+--------+--------+-------------+------------------------------------------------------------------------+
| EagerAggregation | 50 | 1 | 0 | count(o) | |
| Filter(0) | 2533 | 166 | 498 | m, n, o | (Property(n,id(0)) == { AUTOINT0} AND hasLabel(n:LABEL_TYPE_Project)) |
| Expand(All)(0) | 32933 | 166 | 332 | m, n, o | (m)<-[:RELATIONSHIP_scopes]-(n) |
| NodeHashJoin | 32933 | 166 | 0 | m, o | o |
| Filter(1) | 1 | 553 | 553 | o | hasLabel(o:LABEL_TYPE_Item) |
| NodeByIndexQuery | 1 | 553 | 554 | o | Literal(content:*itzndby*); INDEX_FULL_TEXT_content_Item |
| Expand(All)(1) | 64914 | 146855 | 146881 | m, o | (m)-[:RELATIONSHIP_observedBy]->(o) |
| NodeUniqueIndexSeek | 27 | 26 | 30 | m | :LABEL_TYPE_PermissionNode(id) |
+---------------------+---------------+--------+--------+-------------+------------------------------------------------------------------------+

最佳答案

要考虑/尝试的事情:一般来说,对于查询优化,第一要务是找出在回答查询时首先考虑较少数据的方法。与考虑更少的数据相比,更快地考虑相同的数据要少得多。

  • Lucene indexes在您的 content 字段上。我的理解是你正在做的正则表达式不会缩小密码的搜索路径,所以它基本上必须查看每个 o:LABEL_TYPE_Item 并针对该字段运行正则表达式。你的正则表达式只是在寻找一个子串,所以 lucene 可能有助于减少密码在给你结果之前必须考虑的节点数量。
  • 您的关系路径是可变长度的,(-[:RELATIONSHIP_scopes*1]->) 但是您给我们的图像表明您只需要一个跃点。在这两个关系跃点上,根据您的图表的结构方式(以及您拥有的数据量),您可能正在查看比您需要的更多信息。仔细考虑这些关系跃点和您的数据模型;你能用 -[:RELATIONSHIP_scopes]-> 代替吗?请注意,您在 m 节点上有一个 WHERE 子句,您可能会遍历比所需更多的节点。
  • 检查查询计划(通过 PROFILE,google 文档)。我看到很多人使用的一个技巧是将他们查询中最严格的部分推到顶部,在 WITH block 前面。这减少了“起点”的数量。

我的意思是接受这个查询...

MATCH (foo)-[:stuff*]->(bar)   // (bunch of other complex stuff)
WHERE bar.id = 5
RETURN foo

然后把它变成这样:

MATCH bar
WHERE bar.id = 5
WITH bar
MATCH (foo)-[:stuff*]->(bar)
RETURN foo;

(通过 PROFILE 检查输出,这个技巧可以用来强制查询执行计划首先做最具选择性的事情,大大减少 cypher 考虑/遍历的图的数量......更好的性能)

  • 预先计算;如果您有一组您一直使用的特定节点(具有您标识的 ID 的节点),您可以创建自己的自定义 inode 。我们称它为 (foo:SpecialIndex { label: "My Nifty Index"})。这类似于关系数据库中的“ View ”。您将要快速访问的内容链接到 foo。然后你的查询,而不是有那个大的 WHERE id IN [blah blah] 子句,它只是查找 foo:SpecialIndex,遍历到命中点,然后从那里开始.当您的 ID 列表中的入口点列表很大、快速增长或两者兼而有之时,此技巧很有效。这会保留您通常执行的所有相同计算,但会将其中一些计算提前完成,这样您就不会在每次运行查询时都执行它。
  • 该图中有任何 super 节点吗? ( super 节点是一个连接极其密集的节点,即具有一百万个出站关系的节点)——不要那样做。如果可能的话,尝试安排您的数据模型,使您没有 super 节点。
  • JVM/Node Cache tweaks .有时,您可以通过更改节点缓存策略或可用内存来进行缓存来获得优势。这里的想法是,如果你预热缓存,而不是在磁盘上访问数据,那么你至少可以避免一些 I/O。这在某些情况下会有所帮助,但它不会是我的第一站,除非您配置 JVM 或 neo4j 的方式已经有点内存不足。这可能对您的帮助也少一些,因为它试图使您当前的访问模式更快,而不是改进您的实际访问模式。

关于neo4j - 让我的 Neo4j 查询更快,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28353196/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com