gpt4 book ai didi

python - Hadoop上的大型图处理

转载 作者:行者123 更新时间:2023-12-02 21:06:56 26 4
gpt4 key购买 nike

我正在一个项目上,该项目涉及大图上的RandomWalk(太大而无法容纳在内存中)。我使用networkx在Python中进行了编码,但是很快,该图变得太大而无法容纳在内存中,因此我意识到我需要切换到分布式系统。因此,我了解以下内容:

  • 我将需要使用这样的图形数据库(Titan,neo4j等)
  • 一个图形处理框架,例如hadoop上的Apache Giraph / spark上的graphx。

  • 首先是,是否有足够的API允许我继续使用Python进行编码,还是应该切换到Java?

    其次,,我找不到有关如何编写自定义遍历函数(在Giraph或graphx中)以实现随机游走算法的确切文档。

    最佳答案

    我的理解是,您需要处理存储在文件系统中的大图。有各种分布式图形处理框架,例如Pregel,Pregel +,GraphX,GPS(Stanford),Mizan,PowerGraph等。

    值得一看这些框架。我建议使用openMPI之类的C,C++代码进行编码,这可以帮助提高效率。

    Java框架的内存使用效率不是很高。我不确定Python中这些框架的API。

    值得一看的博客和论文在决定实现之前对这些框架进行了比较分析。

    关于python - Hadoop上的大型图处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41575620/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com