- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
对项目对进行一些评估是常见的任务:示例:重复数据删除、协同过滤、相似项目等这基本上是具有相同数据源的自连接或叉积。
最佳答案
要进行自连接,您可以遵循“减少端连接”模式。映射器发出连接/外键作为键,记录作为值。
那么,假设我们想对以下数据的“城市”(中间列)进行自连接:
don,baltimore,12
jerry,boston,19
bob,baltimore,99
cameron,baltimore,13
james,seattle,1
peter,seattle,2
映射器会发出键->值对:
(baltimore -> don,12)
(boston -> jerry,19)
(baltimore -> bob,99)
(baltimore -> cameron,13)
(seattle -> james,1)
(seattle -> peter,2)
在 reducer 中,我们会得到这个:
(baltimore -> [(don,12), (bob,99), (cameron,13)])
(boston -> [(jerry,19)])
(seattle -> [(james,1), (peter,2)])
如果您愿意,您可以从这里执行内部连接逻辑。为此,您只需将每个项目与其他所有项目进行匹配。为此,将数据加载到数组列表中,然后对项目执行 N x N 循环以相互比较。
意识到减少端连接的成本很高。如果您不过滤任何内容,它们会将几乎所有数据发送到 reducer。此外,在将数据加载到 reducer 的内存中时要小心——您可能会通过将所有数据加载到数组列表中来破坏热连接键上的堆。
以上与典型的 reduce-side join 有点不同。连接两个数据集时的思路是一样的:外键是键,记录是值。唯一的区别是这些值可能来自两个或多个数据集。您可以使用 MultipleInputs
让不同的映射器解析不同的输入集,然后让缩减器从两者收集数据。
在没有任何约束的情况下,叉积是一场噩梦。即,
select * from tablea, tableb;
有很多方法可以做到这一点。它们都不是特别有效。如果您想要这种行为,请给我留言,我会花更多时间解释实现此目的的方法。
如果您能找出某种连接键,这是相似性的基本键,那么您的情况会好得多。
我书的插件:MapReduce Design Patterns .它应该会在几个月内发布,但如果您真的感兴趣,我可以通过电子邮件将有关联接的章节发送给您。
关于hadoop - 如何用hadoop实现自连接/叉积?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11066434/
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 Improve th
我在使用 fork 和 pipes 制作一个用于学习目的的简单程序时遇到了问题。我想要一个 child 向 parent 发送一些数据,然后这个( parent )再次将它发送给 child 。 结果
我正在制作一个需要同时做 3 件事的 python 脚本。什么是实现此目的的好方法,就像我听说的关于 GIL 的方法一样,我不再那么倾向于使用线程了。 脚本需要做的两件事将非常活跃,他们将有很多工作要
有没有办法运行sshd以便它可以(至少对于有限数量的登录)成功返回提示(可能是 busybox),即使 fork 不可用(例如,PID 不足)? 在我看来,这应该是可能的,例如,sshd 预 fork
我意识到 Bootstrap 将使用 v4 切换到 rem。但是,我使用的是当前版本 (v3),我想使用 rem。 原因?我希望网站上有可以为最终用户缩放字体大小的按钮。我相信最好的实现方式是使用 r
我试图在这个程序中将信息从子进程传递到父进程。这是到目前为止的代码,仍在清理它: #include #include #include #include main() { char *
我试图理解 fork 在 C 中是如何工作的,但我在某个地方误解了一些东西。 我去年遇到了一位教授给我的测试,但我无法回复它:我们有 3 个任务(进程或线程),伪代码如下: Th1 { display
我在使用 fork() 之类的东西时遇到了一些麻烦。 我正在开发一个 shell,用户可以在其中编写将像在普通普通 shell 中一样执行的命令。 我有一个像这样的主要功能: void Shell::
我有一个 Python 主进程,以及由主进程使用 os.fork() 创建的一组或多个 worker . 我需要将大型且相当复杂的数据结构从工作程序传递回主进程。您会为此推荐哪些现有库? 数据结构是列
我对这个 fork 语句很陌生,我不知道 C 程序上的 fork 方法。你能告诉我这段代码的三个可能的输出是什么吗? #include #include int main(void) {
for(i=0;i #include int main() { for(int i=0;i<2;i++) { if(fork()==0) { printf("Hi %d %d
背景 我正在用 C 语言编写一个共享库,与 LD_PRELOAD 动态链接,这意味着拦截和覆盖预加载它的应用程序的网络调用,例如 socket()、connect()、recv()、send()等 在
我是一名优秀的程序员,十分优秀!