Neo4j 性能挑战——如何改进？-6ren

Neo4j 性能挑战——如何改进？

转载作者：行者123 更新时间：2023-12-02 01:39:27

过去几周我一直在与 Neo4J 争论不休，试图解决一些极具挑战性的性能问题。在这一点上，我需要一些额外的帮助，因为我无法确定如何前进。

我有一个图表，总共有大约 1250 万个节点和 6400 万个关系。该图的目的是分析可疑的财务行为，因此它是客户、账户、交易等。

这是性能挑战的示例:

此查询总节点数需要 96,064 毫秒才能完成，这非常长。

neo4j-sh (?)$ MATCH (n) RETURN count(n);
+----------+
| count(n) |
+----------+
| 12519940 |
+----------+
1 row
96064 ms

总关系查询需要 919,449 毫秒才能完成，这看起来很愚蠢。

neo4j-sh (?)$ MATCH ()-[r]-() return count(r);
+----------+
| count(r) |
+----------+
| 64062508 |
+----------+
1 row
919449 ms

我有 660 万个交易节点。当我尝试搜索金额超过 8,000 美元的交易时，查询耗时 653,637 毫秒也太长了。

neo4j-sh (?)$ MATCH (t:Transaction) WHERE t.amount > 8000.00 return count(t);        
+----------+
| count(t) |
+----------+
| 10696    |
+----------+
1 row
653637 ms

相关架构

 ON :Transaction(baseamount)    ONLINE                             
 ON :Transaction(type)          ONLINE                             
 ON :Transaction(amount)        ONLINE                             
 ON :Transaction(currency)      ONLINE                             
 ON :Transaction(basecurrency)  ONLINE                             
 ON :Transaction(transactionid) ONLINE (for uniqueness constraint)

查询概况:

neo4j-sh (?)$ PROFILE MATCH (t:Transaction) WHERE t.amount > 8000.00 return count(t);  
+----------+
| count(t) |
+----------+
| 10696    |
+----------+
1 row

ColumnFilter
  |
  +EagerAggregation
    |
    +Filter
      |
      +NodeByLabel

+------------------+---------+----------+-------------+------------------------------------------+
|         Operator |    Rows |   DbHits | Identifiers |                                    Other |
+------------------+---------+----------+-------------+------------------------------------------+
|     ColumnFilter |       1 |        0 |             |                    keep columns count(t) |
| EagerAggregation |       1 |        0 |             |                                          |
|           Filter |   10696 | 13216382 |             | Property(t,amount(62)) > {  AUTODOUBLE0} |
|      NodeByLabel | 6608191 |  6608192 |        t, t |                             :Transaction |
+------------------+---------+----------+-------------+------------------------------------------+

我在 neo4j shell 中运行这些。
这里的性能挑战开始让我怀疑我是否可以使用 Neo4J，并且似乎与该平台提供的潜力背道而驰。
我完全承认我可能配置错误(我是 Neo4J 的新手)，因此非常感谢有关修复内容或查看内容的指导。

以下是我的设置的详细信息:

系统:Linux、Ubuntu、16GB RAM、3.5 i5 Proc、256GB SSD HD

中央处理器

$ cat /proc/cpuinfo 
processor   : 0
vendor_id   : GenuineIntel
cpu family  : 6
model       : 60
model name  : Intel(R) Core(TM) i5-4690K CPU @ 3.50GHz
stepping    : 3
microcode   : 0x12
cpu MHz     : 4230.625
cache size  : 6144 KB

内存

$ cat /proc/meminfo
MemTotal:       16115020 kB
MemFree:          224856 kB
MemAvailable:    8807160 kB
Buffers:          124356 kB
Cached:          8429964 kB
SwapCached:         8388 kB

磁盘

$ df -h
Filesystem                  Size  Used Avail Use% Mounted on
/dev/mapper/data1--vg-root  219G   32G  177G  16% /

Neo4J.properties

neostore.nodestore.db.mapped_memory=200M
neostore.relationshipstore.db.mapped_memory=1G
neostore.relationshipgroupstore.db.mapped_memory=200M
neostore.propertystore.db.mapped_memory=500M
neostore.propertystore.db.strings.mapped_memory=500M
neostore.propertystore.db.arrays.mapped_memory=50M
neostore.propertystore.db.index.keys.mapped_memory=200M
relationship_auto_indexing=true

Neo4J-Wrapper.properties

wrapper.java.additional=-Dorg.neo4j.server.properties=conf/neo4j-server.properties
wrapper.java.additional=-Djava.util.logging.config.file=conf/logging.properties
wrapper.java.additional=-Dlog4j.configuration=file:conf/log4j.properties

#********************************************************************
# JVM Parameters
#********************************************************************

wrapper.java.additional=-XX:+UseConcMarkSweepGC
wrapper.java.additional=-XX:+CMSClassUnloadingEnabled
wrapper.java.additional=-XX:-OmitStackTraceInFastThrow

# Uncomment the following lines to enable garbage collection logging
wrapper.java.additional=-Xloggc:data/log/neo4j-gc.log
wrapper.java.additional=-XX:+PrintGCDetails
wrapper.java.additional=-XX:+PrintGCDateStamps
wrapper.java.additional=-XX:+PrintGCApplicationStoppedTime
wrapper.java.additional=-XX:+PrintPromotionFailure
wrapper.java.additional=-XX:+PrintTenuringDistribution

# Java Heap Size: by default the Java heap size is dynamically
# calculated based on available system resources.
# Uncomment these lines to set specific initial and maximum
# heap size in MB.
wrapper.java.initmemory=4096
wrapper.java.maxmemory=6144

其他:

将 Linux 的打开文件设置更改为 40k

我没有在这台机器上运行任何其他东西，没有 X Windows，没有其他数据库服务器。这是运行查询时的 top 片段:

PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                                
15785 neo4j     20   0 12.192g 8.964g 2.475g S 100.2 58.3 227:50.98 java                                                                                                                   
1 root      20   0   33464   2132   1140 S   0.0  0.0   0:02.36 init                                                                                                                   
2 root      20   0       0      0      0 S   0.0  0.0   0:00.01 kthreadd

graph.db 目录中的文件总大小为:

data/graph.db$ du --max-depth=1 -h
1.9G    ./schema
36K ./index
26G .

数据加载非常随意。一些合并将花费不到 60 秒(即使插入约 200 到 300K)，而一些合并将持续超过 3 小时(对于一个 CSV 文件，在一个日期合并 189,999 行，需要 11,898,514 毫秒)

我经常阻塞 GC 线程:

2015-03-27 14:56:26.347+0000 WARN  [o.n.k.EmbeddedGraphDatabase]: GC Monitor: Application threads blocked for 15422ms.
2015-03-27 14:56:39.011+0000 WARN  [o.n.k.EmbeddedGraphDatabase]: GC Monitor: Application threads blocked for 12363ms.
2015-03-27 14:56:57.533+0000 WARN  [o.n.k.EmbeddedGraphDatabase]: GC Monitor: Application threads blocked for 13969ms.
2015-03-27 14:57:17.345+0000 WARN  [o.n.k.EmbeddedGraphDatabase]: GC Monitor: Application threads blocked for 14657ms.
2015-03-27 14:57:29.955+0000 WARN  [o.n.k.EmbeddedGraphDatabase]: GC Monitor: Application threads blocked for 12309ms.
2015-03-27 14:58:14.311+0000 WARN  [o.n.k.EmbeddedGraphDatabase]: GC Monitor: Application threads blocked for 1928ms.

请让我知道我是否应该添加任何其他对讨论重要的内容

更新 1

非常感谢您的帮助，我刚搬家所以迟迟没有回复。

Neostore 文件的大小:

/data/graph.db$ ls -lah neostore.*
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.id
-rw-rw-r-- 1 neo4j neo4j  110 Apr  2 13:03 neostore.labeltokenstore.db
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.labeltokenstore.db.id
-rw-rw-r-- 1 neo4j neo4j  874 Apr  2 13:03 neostore.labeltokenstore.db.names
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.labeltokenstore.db.names.id
-rw-rw-r-- 1 neo4j neo4j 200M Apr  2 13:03 neostore.nodestore.db
-rw-rw-r-- 1 neo4j neo4j   41 Apr  2 13:03 neostore.nodestore.db.id
-rw-rw-r-- 1 neo4j neo4j   68 Apr  2 13:03 neostore.nodestore.db.labels
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.nodestore.db.labels.id
-rw-rw-r-- 1 neo4j neo4j 2.8G Apr  2 13:03 neostore.propertystore.db
-rw-rw-r-- 1 neo4j neo4j  128 Apr  2 13:03 neostore.propertystore.db.arrays
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.propertystore.db.arrays.id
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.propertystore.db.id
-rw-rw-r-- 1 neo4j neo4j  720 Apr  2 13:03 neostore.propertystore.db.index
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.propertystore.db.index.id
-rw-rw-r-- 1 neo4j neo4j 3.1K Apr  2 13:03 neostore.propertystore.db.index.keys
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.propertystore.db.index.keys.id
-rw-rw-r-- 1 neo4j neo4j 1.7K Apr  2 13:03 neostore.propertystore.db.strings
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.propertystore.db.strings.id
-rw-rw-r-- 1 neo4j neo4j  47M Apr  2 13:03 neostore.relationshipgroupstore.db
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.relationshipgroupstore.db.id
-rw-rw-r-- 1 neo4j neo4j 1.1G Apr  2 13:03 neostore.relationshipstore.db
-rw-rw-r-- 1 neo4j neo4j 1.6M Apr  2 13:03 neostore.relationshipstore.db.id
-rw-rw-r-- 1 neo4j neo4j  165 Apr  2 13:03 neostore.relationshiptypestore.db
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.relationshiptypestore.db.id
-rw-rw-r-- 1 neo4j neo4j 1.3K Apr  2 13:03 neostore.relationshiptypestore.db.names
-rw-rw-r-- 1 neo4j neo4j    9 Apr  2 13:03 neostore.relationshiptypestore.db.names.id
-rw-rw-r-- 1 neo4j neo4j 3.5K Apr  2 13:03 neostore.schemastore.db
-rw-rw-r-- 1 neo4j neo4j   25 Apr  2 13:03 neostore.schemastore.db.id

我读到映射内存设置被另一个缓存取代，我已经注释掉了这些设置。

Java 分析器

   JvmTop 0.8.0 alpha - 16:12:59,  amd64,  4 cpus, Linux 3.16.0-33, load avg 0.30
   http://code.google.com/p/jvmtop

   Profiling PID 4260:            org.neo4j.server.Bootstrapper 

    68.67% (    14.01s) org.neo4j.kernel.impl.nioneo.store.StoreFileChannel.read()
    18.73% (     3.82s) org.neo4j.kernel.impl.nioneo.store.StoreFailureException.<init>()
     2.86% (     0.58s) org.neo4j.kernel.impl.cache.ReferenceCache.put()
     1.11% (     0.23s) org.neo4j.helpers.Counter.inc()
     0.87% (     0.18s) org.neo4j.kernel.impl.cache.ReferenceCache.get()
     0.65% (     0.13s) org.neo4j.cypher.internal.compiler.v2_1.parser.Literals$class.PropertyKeyName()
     0.63% (     0.13s) org.parboiled.scala.package$.getCurrentRuleMethod()
     0.62% (     0.13s) scala.collection.mutable.OpenHashMap.<init>()
     0.62% (     0.13s) scala.collection.mutable.AbstractSeq.<init>()
     0.62% (     0.13s) org.neo4j.kernel.impl.cache.AutoLoadingCache.get()
     0.61% (     0.13s) scala.collection.TraversableLike$$anonfun$map$1.apply()
     0.61% (     0.12s) org.neo4j.kernel.impl.transaction.TxManager.assertTmOk()
     0.61% (     0.12s) org.neo4j.cypher.internal.compiler.v2_1.commands.EntityProducerFactory.<init>()
     0.61% (     0.12s) scala.collection.AbstractTraversable.<init>()
     0.61% (     0.12s) scala.collection.immutable.List.toStream()
     0.60% (     0.12s) org.neo4j.kernel.impl.nioneo.store.NodeStore.getRecord()
     0.57% (     0.12s) org.neo4j.kernel.impl.transaction.TxManager.getTransaction()
     0.37% (     0.08s) org.parboiled.scala.Parser$class.rule()
     0.06% (     0.01s) scala.util.DynamicVariable.value()

最佳答案

不幸的是，模式索引(也就是使用 CREATE INDEX ON :Label(property) 创建的索引)尚不支持大于/小于条件。因此 Neo4j 回退扫描所有具有给定标签的节点并过滤它们的属性。这当然是昂贵的。

我确实看到了两种不同的方法来解决这个问题:

1) 如果您的条件始终具有预定义的最大粒度，例如10s 美元，你可以建立一个类似于时间树的“金额树”(参见 http://graphaware.com/neo4j/2014/08/20/graphaware-neo4j-timetree.html )。

2) 如果您事先不知道粒度，另一个选项是为 amount 属性设置手动或自动索引，请参阅 http://neo4j.com/docs/stable/indexing.html .最简单的事情可能是使用自动索引。在 neo4j.properties 中设置以下选项:

node_auto_indexing=true
node_keys_indexable=amount

请注意，这不会自动将所有现有事务添加到该索引中，它只会将自启用自动索引以来已写入的那些放入索引中。

您可以使用以下方法对自动索引进行显式范围查询

MATCH t=node:node_auto_index("amount:[6000 TO 999999999]")
RETURN count(t)

关于Neo4j 性能挑战——如何改进？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29303841/

文章推荐： wpf - 删除 DataGrid 单元格虚线边框？

检查不良做法/改进
我对编码还比较陌生，但并非完全没有经验。处理有关金融计算器的学校作业。如果你们中的任何人可以查看我的代码以了解不良做法/可能的改进等，那就太好了。我确实添加了一个“动画”启动(有很多 printf
小目标检测改进拆分拼接
小目标Trick 论文链接： https://paperswithcode.com/paper/slicing-aided-hyper-inference-and-fine-tuning 代码链接：h
javascript - 改进 if 语句链
if (firstPositionCpc && (firstPosition > 0 && firstPositionCpc 0 && topOfPageCpc 0 && firstPageCpc
SQL 改进 - UNION？
我有 2 个表:“packages”和“items”。 “packages”有以下列:pack_id | item_id “items”有以下列......:item_id |输入一个包可以有多个
python - Pandas 改进
我目前有一个 Pandas Dataframe，我在其中执行列之间的比较。我发现一种情况，在进行比较时存在空列，由于某种原因比较返回 else 值。我添加了一个额外的语句来将其清理为空。看看我是否可以
具有四舍五入的主日期时间键的 MySQL 改进
我正在处理一个查询，通过首先舍入它们的主要日期时间键来连接一个数据库中的多个表。数据库包含来自 openhab 的性能数据，每个表只有一个名为 Time 的主日期时间行和一个名为 Value 的值行。
即发即弃的 C# 改进
问候我有一个程序创建一个类的多个实例，在所有实例上运行相同的长时间运行的 Update 方法并等待完成。我从 this question 开始关注 Kev 的方法将更新添加到 ThreadPool.
c - 对我的简单二十一点程序的建议/改进
我想在下学期的类(class)中取得领先，所以我制作了这个基本版本的 Blackjack 来开始理解 C 的基础知识，我希望您有任何想法可以帮助我更好地理解 C 和其正常的编码实践。 C 中的很多东西
javascript - 需要更好的解决方案/改进
我有一个要求，比如: 给定一个数组，其中包含随机数。需要输出元素出现的次数，有自带解决方案: var myArr = [3,2,1,2,3,1,4,5,4,6,7,7,9,1,123,0,123];
sql - min() 改进
这是我的数据库项目。表user_ select id, name from user_; id | name ----+---------- 1 | bartek 2 | bartek
bash - 改进 for 循环的执行
我已经完成了一个小批量脚本来调整(动态)一些图像的大小: for a in *.{png,PNG,jpg,JPG,jpeg,JPEG,bmp,BMP} ; do convert "$a" -resiz
列表理解中函数的 Pythonic 改进？
是否有更 pythonic 的方法来执行以下代码？我想在一行中完成 parsed_rows 是一个可以返回大小为 3 或 None 的元组的函数。 parsed_rows = [ parse_row(
选项转换器的 Javascript 改进
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
python - 列表到字典 - 改进？
下面的代码完成了我想要的，但还有其他更像 python 风格的方式吗？文件格式: key1:value1,key2:value2,... key21:value21,key22:value22,..
java - 检查字符串中是否存在字符集 - 改进
如果两个英文单词只包含相同的字母，则它们是相似的。例如，food 和 good 不相似，但 dog 和 good 相似。 (如果A与B相似，则A中的所有字母都包含在B中，B中的所有字母都包含在A中。)
c - 强平衡树 - 改进
我有以下结构来表示二叉树: typedef struct node *pnode; typedef struct node { int val; pnode left; pnode
algorithm - 改进 a* 搜索以在三角环境中寻找路径
我有一个区域，它由受约束的 delaunay 三角剖分表示。我正在解决在两点之间寻找路径的问题。我正在使用 Marcelo Kallmann 提供的论文作为解决此问题的引用点。然而，而不是使用 Kal
java - 使用正则表达式的性能开销/改进
如果我需要检查文本(字符串)中是否存在单词 A 或单词 B，如果我这样做会有性能差异: if(text.contains(wordA) || text.contains(wordB)) 要使用一些正则
xml - Xpath 改进
Adjust To 我有上面这个简单的页面，上面有一个标签和一个文本框。我想在文本框中输入文本。对我有帮助的 XPATH 是 //*[contains(tex
elisp - 改进 Elisp 条件表达式
以下伪代码的elisp代码 if "the emacs version is less than 23.1.x" do something else something-else 写成 (if

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Neo4j 性能挑战——如何改进？