gpt4 book ai didi

hadoop - 混淆 hadoop、giraph 和 twister

转载 作者:可可西里 更新时间:2023-11-01 16:55:29 30 4
gpt4 key购买 nike

我正在研究大数据,我的项目由具有文本数据的图表组成。我必须在一个项目本身中计算顶点之间的相似性、跳数概率、连接组件的数量、页面排名向量和随机游走。

我在 hadoop 中实现了它们,但我认为它需要更多时间(图形有 2500 个节点、4000 个边、600 个连接的组件需要 25 分钟)所以什么是实现这些的最佳选择,apache hadoop 或 apache giraph 或 apache twister?

最佳答案

查找连接组件、页面排名计算和随机游走是迭代算法的示例。传统的 Map-Reduce 编程模型不是迭代算法(特别是图形算法)的好选择。原因是在 map-reduce 的每次迭代中,所有数据都必须从 mappers 传输到 reducers(例如高 I/O 和 Network)。相比之下,Giraph 非常适合这类算法。在 giraph 中,所有数据都被分区和加载一次,并且在每次迭代( super 步骤)中,只有结果通过机器传输。

关于hadoop - 混淆 hadoop、giraph 和 twister,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30520624/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com