gpt4 book ai didi

Neo4j 或 GraphX/Giraph 选什么?

转载 作者:行者123 更新时间:2023-12-02 06:58:16 27 4
gpt4 key购买 nike

刚刚开始我对图形处理方法和工具的探索。我们基本上所做的 - 计算一些标准指标,例如页面排名、聚类系数、三角形计数、直径、连接性等。过去对 Octave 很满意,但是当我们开始处理具有 10^9 个节点/边的图表时,我们陷入了困境。

因此,可能的解决方案可以是使用 Hadoop/Giraph、Spark/GraphX、Neo4j 等构建的分布式云。

但是由于我是初学者,有人可以建议实际选择什么吗?我不明白何时使用 Spark/GraphX 和何时使用 Neo4j 有什么区别?现在我考虑 Spark/GraphX,因为它有更多类似 Python 的语法,而 neo4j 有自己的 Cypher。 Neo4j 中的可视化很酷,但在如此大规模的情况下没有用处。我不明白是否有理由使用额外级别的软件(neo4j)或仅使用 Spark/GraphX?因为我知道 Neo4j 不会像我们使用纯 hadoop 与 Giraph、GraphX 或 Hive 那样节省那么多时间。

谢谢。

最佳答案

Neo4J:它是一个图形数据库,可帮助识别通常来自磁盘的关系和实体数据。它的受欢迎程度和选择在此link中给出。但是,当它需要处理非常大的数据集和实时处理以产生图形结果/表示时,它需要水平扩展。在这种情况下,Neo4J 与 Apache Spark 的组合将give significant performance benefits in such a way Spark will serve as an external graph compute solution.

Mazerunner是一个扩展 Neo4J 的分布式图形处理平台。它使用消息代理将图形处理作业分发到 Apache Spark GraphX 模块。


GraphX: GraphX是 Spark 中用于图和图并行计算的新组件。在较高层面上,GraphX 通过引入新的图抽象来扩展 Spark RDD:一个具有附加到每个顶点和边的属性的有向多重图。它支持多种图算法。

结论:始终建议使用 Neo4j 与 GraphX as they both easier to integrate. 的混合组合。

要实时处理和处理大型数据集,请结合使用 Neo4j 和 GraphX。
为了简单的持久性并显示简单图形显示表示的实体关系,请使用独立的 neo4j。

关于Neo4j 或 GraphX/Giraph 选什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28609125/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com