hadoop - 如何用hadoop实现自连接/叉积？-6ren

hadoop - 如何用hadoop实现自连接/叉积？

转载作者：可可西里更新时间：2023-11-01 14:21:16

26

4

对项目对进行一些评估是常见的任务:示例:重复数据删除、协同过滤、相似项目等这基本上是具有相同数据源的自连接或叉积。

最佳答案

要进行自连接，您可以遵循“减少端连接”模式。映射器发出连接/外键作为键，记录作为值。

那么，假设我们想对以下数据的“城市”(中间列)进行自连接:

don,baltimore,12
jerry,boston,19
bob,baltimore,99
cameron,baltimore,13
james,seattle,1
peter,seattle,2

映射器会发出键->值对:

(baltimore -> don,12)
(boston -> jerry,19)
(baltimore -> bob,99)
(baltimore -> cameron,13)
(seattle -> james,1)
(seattle -> peter,2)

在 reducer 中，我们会得到这个:

(baltimore -> [(don,12), (bob,99), (cameron,13)])
(boston -> [(jerry,19)])
(seattle -> [(james,1), (peter,2)])

如果您愿意，您可以从这里执行内部连接逻辑。为此，您只需将每个项目与其他所有项目进行匹配。为此，将数据加载到数组列表中，然后对项目执行 N x N 循环以相互比较。

意识到减少端连接的成本很高。如果您不过滤任何内容，它们会将几乎所有数据发送到 reducer。此外，在将数据加载到 reducer 的内存中时要小心——您可能会通过将所有数据加载到数组列表中来破坏热连接键上的堆。

以上与典型的 reduce-side join 有点不同。连接两个数据集时的思路是一样的:外键是键，记录是值。唯一的区别是这些值可能来自两个或多个数据集。您可以使用 MultipleInputs让不同的映射器解析不同的输入集，然后让缩减器从两者收集数据。

在没有任何约束的情况下，叉积是一场噩梦。即，

select * from tablea, tableb;

有很多方法可以做到这一点。它们都不是特别有效。如果您想要这种行为，请给我留言，我会花更多时间解释实现此目的的方法。

如果您能找出某种连接键，这是相似性的基本键，那么您的情况会好得多。

我书的插件:MapReduce Design Patterns .它应该会在几个月内发布，但如果您真的感兴趣，我可以通过电子邮件将有关联接的章节发送给您。

关于hadoop - 如何用hadoop实现自连接/叉积？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11066434/

26

4

0

文章推荐： hadoop - 用于实时分析解决方案的 HBase 架构/ key

文章推荐： hadoop - 如何与多个用户一起使用配置单元

c - 叉(); C中的方法
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 Improve th
c - 叉+管问题
我在使用 fork 和 pipes 制作一个用于学习目的的简单程序时遇到了问题。我想要一个 child 向 parent 发送一些数据，然后这个( parent )再次将它发送给 child 。结果
python 线程/叉？
我正在制作一个需要同时做 3 件事的 python 脚本。什么是实现此目的的好方法，就像我听说的关于 GIL 的方法一样，我不再那么倾向于使用线程了。脚本需要做的两件事将非常活跃，他们将有很多工作要
login - 叉 "free"sshd？
有没有办法运行sshd以便它可以(至少对于有限数量的登录)成功返回提示(可能是 busybox)，即使 fork 不可用(例如，PID 不足)？在我看来，这应该是可能的，例如，sshd 预 fork
css - Bootstrap rem 叉？
我意识到 Bootstrap 将使用 v4 切换到 rem。但是，我使用的是当前版本 (v3)，我想使用 rem。原因？我希望网站上有可以为最终用户缩放字体大小的按钮。我相信最好的实现方式是使用 r
c - 尝试对文件求和并通过管道/叉/进程传输时出错？
我试图在这个程序中将信息从子进程传递到父进程。这是到目前为止的代码，仍在清理它: #include #include #include #include main() { char *
c - 叉(); C 中的方法 : determine order
我试图理解 fork 在 C 中是如何工作的，但我在某个地方误解了一些东西。我去年遇到了一位教授给我的测试，但我无法回复它:我们有 3 个任务(进程或线程)，伪代码如下: Th1 { display
c++ - 叉(): Dont return from child until it's terminated
我在使用 fork() 之类的东西时遇到了一些麻烦。我正在开发一个 shell，用户可以在其中编写将像在普通普通 shell 中一样执行的命令。我有一个像这样的主要功能: void Shell::
python 叉(): passing data from child to parent
我有一个 Python 主进程，以及由主进程使用 os.fork() 创建的一组或多个 worker . 我需要将大型且相当复杂的数据结构从工作程序传递回主进程。您会为此推荐哪些现有库？数据结构是列
c - 该代码 C 的可能 3 个输出是什么？叉()
我对这个 fork 语句很陌生，我不知道 C 程序上的 fork 方法。你能告诉我这段代码的三个可能的输出是什么吗？ #include #include int main(void) {
叉()操作系统。 4 hi 进入输出，期待 3 hi
for(i=0;i #include int main() { for(int i=0;i<2;i++) { if(fork()==0) { printf("Hi %d %d
c - 叉(): way for a child process to check if parent is dead?
背景我正在用 C 语言编写一个共享库，与 LD_PRELOAD 动态链接，这意味着拦截和覆盖预加载它的应用程序的网络调用，例如 socket()、connect()、recv()、send()等在

首页

博学

6Ren·AI

商城

hadoop - 如何用hadoop实现自连接/叉积？