gpt4 book ai didi

hadoop map reduce vs clojure pmap 函数

转载 作者:可可西里 更新时间:2023-11-01 15:01:36 25 4
gpt4 key购买 nike

据说我在单独的 Excel 文件中有大量独立的数据集。

在运行时效率方面,使用clojure Pmap函数处理数据好还是hadoop map reduce好?

每个 excel 文件至少包含大约 34000 行,我有相当多的行。

对于初学者的问题,我很抱歉,因为我对两者都比较陌生,并且正在研究它们

正如你们中的一些人所解释的,

也许还有一个问题是将 clojure pmap 与运行相同软件副本的多个实例的实例进行比较,它们之间有什么区别?

我唯一能想到的是 pmap 可以接受任意数量的变量,但是,每个应用程序实例读取一个文件需要预先知道文件的数量并初始化实例

最佳答案

我会说使用 Hadoop,但不是直接使用,而是通过 Cascalog来自 Clojure。这里的值(value)主张是 Hadoop 为您提供的所有内容加上出色的声明式查询语言(即使任务相对较小,使用 Cascalog 也很值得;在本地模式下使用 Hadoop 进行设置完全没有麻烦)。

最初的介绍性博客文章仍然是最好的起点(尽管现在有很棒的文档——请参阅 GitHub 上的 wiki):第一个是 here它链接到最后的第二个。

为了让您体验一下它的样子,这里是第一个教程的一个片段(查找所有“关注”关系,其中关注者比他们关注的人年长):

(?<- (stdout) [?person1 ?person2] 
(age ?person1 ?age1)
(follows ?person1 ?person2)
(age ?person2 ?age2)
(< ?age2 ?age1))

在集群上运行也没有问题,参见 News Feed in 38 lines of code using Cascalog以 Nathan Marz 的博客为例。

关于hadoop map reduce vs clojure pmap 函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16930294/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com