Hadoop - 组合键-6ren

Hadoop - 组合键

转载作者：可可西里更新时间：2023-11-01 14:11:51

28

4

假设我有一个制表符分隔的文件，其中包含格式如下的用户事件数据:

timestamp  user_id  page_id  action_id

我想写一个 hadoop 作业来统计每个页面上的用户操作，所以输出文件应该是这样的:

user_id  page_id  number_of_actions

我在这里需要类似复合键的东西——它会包含 user_id 和 page_id。有什么通用的方法可以用 hadoop 做到这一点吗？我找不到任何有用的东西。到目前为止，我在映射器中发出这样的 key :

context.write(new Text(user_id + "\t" + page_id), one);

它有效，但我觉得这不是最好的解决方案。

最佳答案

只需编写您自己的Writable。在您的示例中，解决方案可能如下所示:

public class UserPageWritable implements WritableComparable<UserPageWritable> {

  private String userId;
  private String pageId;

  @Override
  public void readFields(DataInput in) throws IOException {
    userId = in.readUTF();
    pageId = in.readUTF();
  }

  @Override
  public void write(DataOutput out) throws IOException {
    out.writeUTF(userId);
    out.writeUTF(pageId);
  }

  @Override
  public int compareTo(UserPageWritable o) {
    return ComparisonChain.start().compare(userId, o.userId)
        .compare(pageId, o.pageId).result();
  }

}

虽然我认为您的 ID 可能是 long，但这里您有 String 版本。基本上只是 Writable 接口(interface)上的正常序列化，请注意它需要默认构造函数，因此您应该始终提供一个。

compareTo 逻辑清楚地告诉了如何对数据集进行排序，还告诉 reducer 哪些元素是相等的，以便可以对它们进行分组。

ComparisionChain 是 Guava 的一个很好的实用程序.

不要忘记覆盖 equals 和 hashcode!partitioner 将根据键的 hashcode 确定 reducer。

关于Hadoop - 组合键，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12427090/

28

4

0

文章推荐： java - 将 IntWritable 转换为 int

文章推荐： hadoop - 如何使用 sqoop 导出默认的配置单元分隔输出？

文章推荐： java - Apache Hadoop setXIncludeAware UnsupportedOperationException

Hadoop - 组合键
假设我有一个制表符分隔的文件，其中包含格式如下的用户事件数据: timestamp user_id page_id action_id 我想写一个 hadoop 作业来统计每个页面上的用户操作，
hibernate - hibernate 组合键
为了生成下一个SQL代码: create table users ( user_name varchar(15) not null primary key, user_pass var
java - hibernate 组合键
是否有必要将 composite-id 映射到类？？可以这样吗？或者应该是如果我们有复合键，那么该类是否应该实现 equals() 和 override() 方法
java - MongoDB 组合键
我刚开始使用 MongoDb，我注意到我得到了很多重复的记录，这些记录是我想要唯一的。我想知道如何为我的数据使用复合键，我正在寻找有关如何创建它们的信息。最后，我使用 Java 来访问 mongo 和
java - JPA 组合键 @OneToMany
我有以下现有的数据库模式，我想用 Java 和纯 JPA 注释重新创建它(使用 hibernate 作为提供者，所以 hibernate 特定的注释将作为最后的手段): CREATE TABLE us
emacs - 是否有为自定义命令保留的任何 emacs 组合键？
如果我想创建自定义组合键来运行命令，是否有为此保留的键盘快捷键？我总是发现很难决定要覆盖哪个快捷方式，因为我不确定我不应该覆盖哪些命令以及我将来可能安装的命令插件会尝试设置哪些命令。最佳答案我建议
Javascript 键盘，Shift + 组合键
我正在使用 vanilla Javascript 创建一个屏幕键盘，我试图在物理键盘上按下相同的键时更改屏幕键盘键的颜色。到目前为止，一切都很好。问题是，我正在使用 keyup 和 keydown，但
图表中的 Mysql Workbench 组合键
我有一个正在工作台中构建的模型，其中一个表是一个多对多关系表，其复合键由 3 个整数值组成:构成多对多关系的两个外键，以及一个附加标识符，其详细信息与我的问题无关。我可以看到如何在工作台的模型选项卡
python - 按多列排名的 Pandas 数据框(组合键)
是否有一种Python式的方法可以通过组合键对下面描述的数据帧进行排序 - 首先通过ORD_DT_KEY，然后通过ORD_TM_KEY，然后通过ORD_KEY；并将排名存储在另一列 ORD_RANK
javascript - 从对象动态设置 Mousetrap.bind() 组合键
我正在从我们的后端取回数据，其中包含有关键盘快捷键的信息。这是我将收到的简化版本: { code: "r", message: "test R" }, { code: "s", mes
php - 使用 PHP 组合键/值上的两个数组并输出组合数组
我绞尽脑汁，发现了很多类似情况的例子，但解决方案似乎并不匹配。我根据不同数据库上的 SQL 查询结果构建了两个数组。其中一个的格式如下: $data = array([$sku] => array
c++ - C/C++ GetAsyncKeyState() 组合键
我了解如何通过一个按键使用此功能，但我如何通过两个按键使用它？像:GetAsyncKeyStat(VK_LBUTTON && VK_RBUTTON); 最佳答案您必须调用 GetAsyncKeyS
c++ - 如何使用 boost::multi_index 组合键
我的要求需要这样的 map : pair _keypair; map> 我的需求是: key1 和 key2 对必须是唯一的。我应该能够使用 key1 和 Key2 对进行访问。插入。使用组合键
java - Hibernate JPA ManyToOne 组合键
我正在尝试设置我的实体以允许进行 pk。我的数据库包含两个字段， dealer_detail_id pkuser_detail_id pk 两者都在相应表中加入 id。到目前为止，我已经试过了，但没
mysql - 组合键 VS 主键 + 非唯一索引
这是我的: 表格内容:cat_id product_id data1 data2 etc. 这些类别显然不是唯一的。产品 ID 是唯一的。 2 个查询: 1 -- SELECT * WHERE cat
Slick 3.0.0 AutoIncrement 组合键
我的表结构如下: Table1: id: Int name: String version: Int 表格的相应 Slick 表示为: class Table1(tag: Tag) e
python:组合键，例如 óíúéáöïò 和 pyhook
我正在学习将 pyhook 作为键盘记录器并编写一些示例。我不知道如何记录像 óíúö 这样的键序列，因为结果是这样的 -> ´´i´´o 有人知道如何解决这个问题吗？谢谢你。最佳答案我的站点上
linux 组合键 [Ctrl + ,] 和 [Ctrl + .] 被禁用？
我正在使用 Putty ssh 连接 Linux 服务器。组合键 CTRL + , 和 CTRL + . 不起作用... 我的键盘是日文键盘我用shokey测试，下面是“按下[,][.][ALT+
c# - 如何调用 Low-Level KeyHook 组合键？
我真的无法解决这个问题，甚至不知道是否可能。我想使用 CTRL+C 和 CTRL+V 快捷键。示例:有 2 个应用程序。 1. App 是用 C# 编写的， 2. App 是一个 Java-App
Command+T 的 JavaFX 组合键(新标签)
我正在尝试为我的浏览器应用程序创建一个按键监听器，以便 Command+T 以与大多数实际浏览器相同的方式触发打开新选项卡。为此查找了一些可能的解决方案，看起来我可能必须使用 KeyCombinat

首页

博学

6Ren·AI

商城

Hadoop - 组合键