- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
刚刚开始我对图形处理方法和工具的探索。我们基本上所做的 - 计算一些标准指标,例如页面排名、聚类系数、三角形计数、直径、连接性等。过去对 Octave 很满意,但是当我们开始处理具有 10^9 个节点/边的图表时,我们陷入了困境。
因此,可能的解决方案可以是使用 Hadoop/Giraph、Spark/GraphX、Neo4j 等构建的分布式云。
但是由于我是初学者,有人可以建议实际选择什么吗?我不明白何时使用 Spark/GraphX 和何时使用 Neo4j 有什么区别?现在我考虑 Spark/GraphX,因为它有更多类似 Python 的语法,而 neo4j 有自己的 Cypher。 Neo4j 中的可视化很酷,但在如此大规模的情况下没有用处。我不明白是否有理由使用额外级别的软件(neo4j)或仅使用 Spark/GraphX?因为我知道 Neo4j 不会像我们使用纯 hadoop 与 Giraph、GraphX 或 Hive 那样节省那么多时间。
谢谢。
最佳答案
Neo4J:它是一个图形数据库,可帮助识别通常来自磁盘的关系和实体数据。它的受欢迎程度和选择在此link中给出。但是,当它需要处理非常大的数据集和实时处理以产生图形结果/表示时,它需要水平扩展。在这种情况下,Neo4J 与 Apache Spark 的组合将give significant performance benefits in such a way Spark will serve as an external graph compute solution.
Mazerunner是一个扩展 Neo4J 的分布式图形处理平台。它使用消息代理将图形处理作业分发到 Apache Spark GraphX 模块。
GraphX: GraphX是 Spark 中用于图和图并行计算的新组件。在较高层面上,GraphX 通过引入新的图抽象来扩展 Spark RDD:一个具有附加到每个顶点和边的属性的有向多重图。它支持多种图算法。
结论:始终建议使用 Neo4j 与 GraphX as they both easier to integrate. 的混合组合。
要实时处理和处理大型数据集,请结合使用 Neo4j 和 GraphX。
为了简单的持久性并显示简单图形显示表示的实体关系,请使用独立的 neo4j。
关于Neo4j 或 GraphX/Giraph 选什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28609125/
我想在RedHat集群上安装 Apache Giraph 1.1.0 , Hadoop 2.7.1 已在集群上安装和配置。在官方教程http://giraph.apache.org/quick_sta
我在 Hadoop 2.6.0 上运行 Giraph 1.1.0。mapredsite.xml 看起来像这样 mapreduce.framework.name yarn The run
我在 Hadoop 版本 0.20.203 上使用 Apache Giraph 版本 1.0。它执行ConnectedComponentsVertex和SimpleShortetPathsVertex
我正在尝试使用最新的 Giraph 代码和 Hadoop 2.5.2 运行 SimpleShortestPathsComputation 示例。我的命令行如下所示: hadoop jar /home/
我正在使用 Giraph 开发算法。我在 Hadoop 1.2.1 上使用 1.0.0 版。 我是开发 Giraph 的新手,所以请保持温和 ;) 我的自定义作业分为三个包: io:包含输入和输出格式
我正在尝试运行 Giraph 中包含的 SimpleInDegreeCountComputation 示例。我的做法如下: SimpleInDegreeCountComputation.java:
信息 zookeeper.ClientCnxn:打开与服务器 debashis-Pseudo-Hadoop/127.0.1.1:22181 的套接字连接。不会尝试使用 SASL 进行身份验证(未知错误
我正在尝试部署 Giraph 以运行一些示例。我关注QuickStart guide ,跳过步骤部署 Hadoop,因为我已经在我的机器上将 hadoop 设置为单个节点。但是我收到以下错误: [ER
我正在尝试将一些包含相关顶点信息的文本文件读入 Giraph:每一行都是 vertex_id attribute_1 attribute_2 .....attribute_n 其中每个属性都是一个字符
最近我正在运行一些基准测试来了解 Giraph 中的故障转移机制。 其实我很好奇;当工作中的一个 worker 变慢时,其他 worker 将等待它。后来在GiraphJob.java中发现了这样的东
我正在尝试构建 Giraph。我有以下内容:java 版本“1.7.0_25”、Apache Maven 3.0.4、Hadoop 1.0.4。我正在按照此页面中的说明进行操作: https://cw
我正在尝试从 giraph 孵化器 (https://cwiki.apache.org/confluence/display/GIRAPH/Shortest+Paths+Example) 运行最短路径
本文整理了Java中org.apache.giraph.zk.ZookeeperConfig类的一些代码示例,展示了ZookeeperConfig类的具体用法。这些代码示例主要来源于Github/St
Giraph 中有几种内置的输入输出格式,但所有这些格式都只支持数字 ID 和值。 那么有没有一种方法可以处理属性图,使顶点和边都可以有多个键和值或任何接近的东西?我特别感兴趣的是 edge 是否可以
Apache Giraph 与 Neo4j 对比:遍历算法 在这两个图形处理系统中跨节点完全不同?如果我们要遍历使用 Giraph 和 Neo4j 对存储在单机(非分布式)中的数据的社交图,哪个会表现
我是Hadoop和Giraph的新手。我试图在运行YARN的服务器上使用Giraph 1.1运行Giraph ShortestPaths示例。经过很多次拉毛后,我终于开始运转了。现在的问题是停止它。
刚刚开始我对图形处理方法和工具的探索。我们基本上所做的 - 计算一些标准指标,例如页面排名、聚类系数、三角形计数、直径、连接性等。过去对 Octave 很满意,但是当我们开始处理具有 10^9 个节点
过去 10 天我一直在研究 giraph。我得到了如何在 Giraph 中安装和执行给定示例的想法。但我想设计自己的自定义代码,所以我需要你的一些帮助。如果有人完成了这个,请告诉我并给出一些想法。 最
我很好奇,在 Giraph 的 worker API 文档中,我看到了关于这个方法的解释: public void storeCheckpoint() // Both the vertices and
我想使用 Giraph 作为我工作的图形处理工具。我熟悉 Mahout,我知道我可以在不使用 Hadoop 的情况下使用 Mahout 的某些部分,例如推荐系统。但是,我不知道这对于Giraph是否也
我是一名优秀的程序员,十分优秀!