scala - 如何在hadoop中实现OR join(scalding/cascading)-6ren

scala - 如何在hadoop中实现OR join(scalding/cascading)

转载作者：可可西里更新时间：2023-11-01 14:59:35

25

4

只需将连接字段作为缩减键发送，就可以很容易地通过单键连接数据集。但是通过多个键连接记录(其中至少一个键应该相同)对我来说并不那么容易。

示例我有日志，我想按用户参数对它们进行分组，我想通过 (ipAddress, sessionId,visitorCockies) 加入它们

如果 log1.ip == log2.ip OR log1.session = log2.session OR log1.cockie = log2.coockie，那么 log1 应该与 log2 分组。也许可以创建复合键或一些概率方法，如 minHash...

这可能吗？

最佳答案

问题是 MapReduce 连接通常是通过为在某些字段上匹配的记录提供相同的归约键来实现的，以便将它们发送到同一个归约器。所以任何解决这个问题的方法都会有点麻烦，但这是可能的......

这是我的建议:对于每个输入记录，生成三个副本，每个副本都有一个新的“键”字段，该字段以它来自的字段为前缀。例如，假设您有以下输入:

(ip=1.2.3.4, session=ABC, cookie=123)
(ip=3.4.5.6, session=DEF, cookie=456)

然后你会生成

(ip=1.2.3.4, session=ABC, cookie=123, key=ip_1.2.3.4)
(ip=1.2.3.4, session=ABC, cookie=123, key=session_ABC)
(ip=1.2.3.4, session=ABC, cookie=123, key=cookie_123)
(ip=3.4.5.6, session=DEF, cookie=456, key=ip_3.4.5.6)
(ip=3.4.5.6, session=DEF, cookie=456, key=session_DEF)
(ip=3.4.5.6, session=DEF, cookie=456, key=cookie_456)

然后您可以简单地在这个新字段上分组。

我不太熟悉烫伤/级联(尽管我一直想了解更多相关信息)但这肯定符合 Hadoop 中通常执行连接的方式。

关于scala - 如何在hadoop中实现OR join(scalding/cascading)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12573675/

25

4

0

文章推荐： input - Hadoop 多次读取输入拆分

文章推荐： javascript - 我如何在 Canvas 动画上写文字

文章推荐： javascript - 每次用户访问页面时如何显示新图像

文章推荐： c++ - std::bind 和 std::function 问题

scalding - (Scalding) groupBy foldLeft 在折叠中使用 group by 值
有如下数据: pid recom-pid 1 1 1 2 1 3 2 1 2 2 2 4 2 5 需要做到: pid, recommendations 1 2,3
scala - Scalding:管道操作的输出模式
我正在 HDFS 上通过烫洗、聚合某些字段并通过 TSV 写入制表符分隔文件来重新读取文件。如何写出包含输出文件架构的文件？例如， UnpackedAvroSource(args("input"))
scala - 如何在 Scalding 中定义源字段
一个月前我在 Cascading 工作。现在我们正在尝试在 Scalding 中实现相同的功能。我有一个基本问题。如何在 Scalding 中定义我的源和接收器模式？以下是我们在级联中遵循的过程
scala - Spark中是否有类似twitter.scalding.addTrap的API处理异常
我正在将一个项目从hadoop移植到Spark 2.1.0。以前，它使用twitter.scalding.addTrap处理类似以下的异常: https://github.com/scalding-i
java - Scala-Scalding 中求和列表的替代品是什么
我有以下代码，其中维护一个大列表:我在这里所做的是检查数据流并创建倒排索引。我使用twitter scalding api，dataTypePipe是TypedPipe的类型 lazy val c
java - 如何在 Scalding 中存储输出
我正在尝试将一个管道输出到不同的目录中，这样每个目录的输出将根据一些 ID 进行分桶。所以在普通的 map reduce 代码中，我会使用 MultipleOutputs 类，我会在 reducer
hadoop - 如何在 Scalding 中一次对多列进行平均？
作为使用 Scalding 进行某些计算的最后一步，我想计算管道中列的多个平均值。但是下面的代码不起作用 myPipe.groupAll { _average('col1,'col2, 'col3)
scala - 合法代码在 Scalding 中无法编译
我正在 Scalding 中编写 MapReduce 作业，但在编译对我来说看起来完全合法的代码时遇到了困难。 val persistenceBins = List[Int](1000 * 60 *
scala - 使用 scalding 读取多个文件并输出单个文件
这些天我遇到了一个问题，我正在尝试使用 scalding 从多个文件中读取数据并使用单个文件创建输出。我的代码是这样的: def getFilesSource (paths: Seq[String])
serialization - 在 Scalding 中读写案例类
有人可以给我指向一个链接，该链接解释了如何在 scalding 中读取和编写简单的案例类吗？是否有一些默认的序列化方案？例如，我有创建 com.twitter.algebird.Moments 管道
scala - 我可以在 Scalding map 方法中输出一个集合而不是一个元组吗？
如果你想从 Scalding 中的一个较小的字段创建一个超过 22 个字段的管道，你会受到 Scala 元组的限制，它不能超过 22 个项目。有没有办法使用集合而不是元组？我想像以下示例中的内容，但
java - scalding 如何将用户函数传递给远程 MapReduce 节点
使用 Scalding 时，您可以提供一个函数。我想知道 scalding 如何将这些函数传递给远程 map/reduce 任务？这是使用 scala 中的东西还是可以用匿名对象完成的通用东西？最佳
scala - 如何在hadoop中实现OR join(scalding/cascading)
只需将连接字段作为缩减键发送，就可以很容易地通过单键连接数据集。但是通过多个键连接记录(其中至少一个键应该相同)对我来说并不那么容易。示例我有日志，我想按用户参数对它们进行分组，我想通过 (ipAd
scala - Scalding:解析带 header 的逗号分隔数据
我有以下格式的数据: "header1","header2","header3",... "value11","value12","value13",... "value21","value22","
scala - Scalding 示例 WordCount 本地模式
我正在尝试运行 Scalding 示例字数统计示例。我已按照此 github 链接执行步骤:- https://github.com/twitter/scalding/wiki/Getting-Sta
scala - 压缩输出 Scalding/Cascading TsvCompressed
所以人们在压缩 Scalding Jobs 的输出时遇到了问题，包括我自己。谷歌搜索后，我在某个不起眼的论坛中得到了奇怪的答案，但没有适合人们复制和粘贴需求的答案。我想要像 Tsv 这样的输出，但写
scala - Scalding TypedPipe API 外部操作模式
我有一本 Antonios Chalkiopoulos 的 Programming MapReduce with Scalding。在书中，他讨论了 Scalding 代码的外部操作设计模式。你可以在
hadoop - 使用 Scalding 限制 reducer 输出文件大小
我正在使用 Scalding，我们有大约 5.5GB 的输出文件大小。 (例如，对于 30 个 reducer ，有 30 个 5.5GB 文件)。有没有办法说，将输出文件限制为每个 512MB？我可
scala - 如何将 Scalding ValuePipe 加入 TypedPipe？
我已经改编了 scalding KMeans 示例来执行 KModes。问题是当作业完成后，我需要将聚类记录与匹配的质心连接起来。 KMeans 代码使用 ValuePipe 来保存质心。因此，为了从
hadoop - 是否有可用于 lzo 压缩二进制数据的 Scalding 源？
我正在使用 Elephant Bird's 将序列化的 Thrift 记录写入文件可分割的 LZO 压缩。为此，我使用了他们的 ThriftBlockWriter 类。然后我的 Scalding 工作

首页

博学

6Ren·AI

商城

scala - 如何在hadoop中实现OR join(scalding/cascading)