java - 如何在 HADOOP 运行时生成多个文件名？-6ren

java - 如何在 HADOOP 运行时生成多个文件名？

转载作者：可可西里更新时间：2023-11-01 14:42:04

29

4

我有一些 csv 格式的数据。

例如K1,K2,data1,data2,data3

这里我的映射器将 key 作为 K1K2 传递给 reducer & 值为 data1,data2,data3

我想将此数据保存在文件名为 K1k2(或 reducer 获取的 key )的多个文件中。现在，如果我使用 MultipleOutputs 类，我必须在映射器开始之前提及文件名。但是在这里，因为只有从 mapper 读取数据后，我才能确定 key 。我应该如何进行？

PS 我是新手。

最佳答案

您可以像这样生成文件名并将它们传递给 Reducer 中的 MultipleOutputs:

public void setup(Context context) {
   out = new MultipleOutputs(context);
   ...
}

public void reduce(Text key, Iterable values, Context context) throws IOException,           InterruptedException {
  for (Text t : values) {
    out.write(key, t, generateFileName(<parameter list...>));
    // generateFileName is your function
  }
}

protected void cleanup(Context context) throws IOException, InterruptedException {
  out.close();
}

有关更多详细信息，请阅读 MultipleOutputs 类引用:https://hadoop.apache.org/docs/current2/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

关于java - 如何在 HADOOP 运行时生成多个文件名？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21702950/

29

4

0

文章推荐： c# - 文件计数保存在哪里？

文章推荐： javascript - 无法加载文件或程序集 'Noesis.Javascript.dll'

文章推荐： windows - FOR 循环内的 WHILE 循环批量

javascript - 仅在单击 anchor 时生成 url
是否可以仅在点击 anchor 时为其分配 url？ Token Link 当点击 anchor 时，它将转到 http://example.com/token=xxxxx/ 我只想在单击时生成 to
javascript - 使用 JavaScript 时生成 PDF
我不能 100% 确定我的错误。当我尝试生成 PDF 时，我得到了此编码输出: %PDF-1.4 %�� 3 0 obj <> /Contents 4 0 R>> endobj 4 0 obj <
java - br.readLine() = ","时生成 ArrayIndexOutOfBoundsException
下面的代码有几个函数，这些函数允许诸如将数据写入文档、读取文档以及将数据放入数组中以用于稍后的 JTable 等操作。 package tabletest.populatetable; import
javascript - noscript 标签是否仅在禁用 JavaScript 时生成？
我检查了我的网站 (WordPress) 应用程序的页面源并发现了以下内容 <iframe src="https://www.google.com/recaptcha
java - OutOfMemory 时生成 java 转储
我有一个最终会生成 OutOfMemory 的程序。程序代码为: public class VeryLargeObject implements Serializable { public s
ruby-on-rails - 不使用整数作为 id 时生成 URL？
所以我正在构建一个博客引擎，它具有/articles/then-the-article-permalink 作为 URL 结构。我需要有 prev 和 next 链接，它们将通过 pub_date 跳
c# - LINQ:使用 "AND"时生成 "OR"表达式而不是 "CONTAINS"
我有这个列表: string[] countries = { "USA", "CANADA" }; 当我运行这个查询时: query = (from user
java - 返回 InputStream 时生成 swagger 文档
我有一个将 InputStream 作为 InputStreamResource 返回的方法，当我让 swagger 生成文档时，它说返回类型是 InputStreamResource。如何更改此设置
android - 检测到 '@' 时生成 ListView
令人惊讶的是，我找不到关于这个主题的任何内容。当在 EditText 中检测到“@”时，动态生成 ListView 的方法是什么。这是一个例子: 这是我目前所拥有的: textfield.setOn
ocaml - 使用 ocamlbuild 时生成 Menhir 的转储/解释文件
我发现 Menhir 提供了 --dump 和 --explain 选项，它对调试有很大帮助。但是如何在 ocamlbuild 下启用这些选项，以便 Menhir 在编译时始终生成转储文件？我尝试编
codeigniter - 在提交 Ajax 时生成 CSRF token codeigniter
您好，我正在寻找使用 ajax 提交表单时在 codeigniter 中重新生成 csrf token 的过程。我希望在不刷新页面的情况下重新生成 token 。有没有办法做到这一点。最佳答案根据
c - 我的代码在将数据类型从 float 更改为 double 时生成 -nan
int main(void) { float a; scanf("%f", &a); double c = sqrt(a); printf("%f", c);
java - Hibernate 在访问关联实体的 id 时生成 SQL 查询
我有看起来像这样的 Hibernate 实体(省略了 getter 和 setter): @Entity public class EntityA { @ManyToOne(fetch = F
git - 使用 git svn 时生成 svn 兼容差异的最佳方法是什么？
我正在使用 git 来跟踪 wireshark project .我想提交一个补丁，但是所需的格式是以下输出(参见 http://www.wireshark.org/develop.html ): s
带有静态内容的 Spring Boot 项目在运行 jar 时生成 404
Spring 最近发布的关于在 Spring Boot 项目中使用静态 Web 内容的博文 (https://spring.io/blog/2013/12/19/serving-static-web-
typescript - 使用 preloadedState 时生成 Redux Toolkit TypeScript 类型
我正在尝试设置我的测试环境，其中包括 React 测试库、Redux 工具包、RTK 查询和 TypeScript，但我遇到了一个我无法解决的问题。我想不通的主要问题是如何生成 AppDispatc
mysql - 经典 ASP 在打开 MySQL 时生成 500 错误
我正在尝试将使用 Microsoft Access 数据库的网站移植到 MySQL。首先，我尝试打开 SQL 数据库: (旧)访问代码是: Set cn = Server.CreateObject (
python - 为什么 gUnicorn 在运行 Flask 时生成 2 个进程
我正在运行一个基本上从 Twitter 中提取推文的 Flask 应用程序。虽然使用嵌入式 Flask 服务器运行应用程序没有问题，但在 gUnicorn 中运行时我收到重复的推文，主要是因为我有 2
Python 在同一文件上交错打开/关闭/readline/write 时生成 IO 错误
我正在学习 Python-这给了我一个 IO 错误- f = open('money.txt') while True: currentmoney = float(f.readline())
matlab - 当乘积为 P 时生成 N 个乘积为 1 和更一般的数？
我想生成 N 个随机点，其乘积为某个值 1。我在 MATALB 中是这样做的: N_=10; x1_=rand(1, N_); p_=prod(x1_); x_=x1_; x_(end)=x1_(e

首页

博学

6Ren·AI

商城

java - 如何在 HADOOP 运行时生成多个文件名？