hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge-6ren

hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge

转载作者：可可西里更新时间：2023-11-01 14:46:40

25

4

如何在 dataproc 上使用 getmerge 处理转储到 google 存储桶的部分文件。如果我尝试这个 hadoop fs -getmerge gs://my-bucket/temp/part-* gs://my-bucket/temp_merged我得到一个错误getmerge:/temp_merged(权限被拒绝)

它适用于 hadoop fs -getmerge gs://my-bucket/temp/part-* temp_merged 但当然是在集群机器上而不是在 GS 中写入合并文件。

最佳答案

根据fsshell documentation ，getmerge 命令从根本上将目标路径视为“本地”路径(因此在 gs://my-bucket/temp_merged 中它忽略了“方案”和“权限” "组件，尝试直接写入您的本地文件系统路径 /temp_meged；这不是特定于 GCS 连接器；如果您尝试 hadoop fs -getmerge gs，您会看到相同的结果://my-bucket/temp/part-* hdfs:///temp_merged，更糟糕的是，如果您尝试类似 hadoop fs -getmerge gs://my-bucket/temp/part- * hdfs:///tmp/temp_merged，您可能认为它成功了，但实际上文件没有出现在 hdfs:///tmp/temp_merged 中，而是出现在您的本地文件系统 file:///tmp/temp_merged 下。

您可以改为使用管道标准输出/标准输入来实现它；不幸的是，由于 .crc 文件的权限和使用，-getmerge 不能很好地与 /dev/stdout 配合使用，但您可以实现相同的效果使用 hadoop fs -put 中支持从 stdin 读取的功能的效果:

hadoop fs -cat  gs://my-bucket/temp/part-* | \
    hadoop fs -put - gs://my-bucket/temp_merged

关于hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38387719/

25

4

0

文章推荐： bash - 无法找到或加载主类 org.apache.hadoop.fs.FsShell

文章推荐： hadoop - 在 spark SQL 中加载数据时获取 Hive 表中的空值

文章推荐： hadoop - hbase真的是线性扩展的吗？

iOS:数据处理
解释我的应用程序基本上使用带有代表建筑物的多边形叠加层的 map View ，以及注释。为此，它导入了一个名为 Annotation 的自定义类，该类在点击注释时处理弹出详细信息，这意味着它存储建筑
r - 两组差异，数据处理
我有一个数据处理问题，我想计算两支球队在不同比赛中的进球数差异。数据如下所示: matchId teamId eventSec 1 2799331 6718 443.55984
Pandas 数据处理,数据清洗详解
如下所示： ? 1
ruby-on-rails - cocoa 数据处理
我想知道 cocoa 是否有默认的数据存储方式。如果是，那是什么？我的意思是 Rails 默认使用 sqlite... 此外，我正在寻找有关如何使用它的教程...例如获取数据并将其显示到 ListVi
java - 高效的 Websocket 数据处理
我正在使用 HTML5 创建在线游戏。我将使用 JSON 字符串通过 Websockets 通信数据，因此典型的字符串将包含被调用的操作以及随之而来的数据: {action: "chat", user
java - 带分组的 Spark 数据处理
我需要按特定列对一组 csv 行进行分组，并对每个组进行一些处理。 JavaRDD lines = sc.textFile ("somefile
c++ - 不使用堆内存的高速 CAN 数据处理
我有一个情况: 基本上有 3 个模块，分别命名为“A”、“B”、“C”。每个模块都涉及多线程。模块“A”获取高速数据(20ms)并发送。模块“B”的一个线程启动。模块“B”提取相关数据并执行一些位
php - MySQL 数据处理。如何从数据库获取斜杠后面的值
我正在处理有关城镇和城镇内区域的 MySQL 数据库中的一些数据。数据库看起来像这样 ID | NAME 1 | Manchester 2 | Manchester/North 3 | Man
ios - 注册问题上的 JSON 数据处理
当我注册用户时，我得到一个状态代码 200 和一个 token :“”返回 JSON。如果用户已经存在，那么我会得到状态代码 200 和 html 响应而不是 JSON。我应该如何处理这个问题。提前致
ios - 使用单个共享后台线程进行 iOS 数据处理？
我有一个应用程序，我从网络上下载大量资源，并对每个资源进行一些处理。我不希望这项工作发生在主线程上，但它非常轻量级且优先级较低，因此所有这些工作都可以真正发生在同一个共享工作线程上。这似乎是一件好事，
python - AWS Redshift 数据处理
我目前正在与一家小公司合作，该公司将其所有应用程序数据存储在 AWS Redshift 集群中。我的任务是对该 Redshift 集群中的数据进行一些数据处理和机器学习。我需要做的第一个任务是根据一
python接口自动化（十七）--Json 数据处理---一次爬坑记（详解）
简介有些 post 的请求参数是 json 格式的，这个前面发送post 请求里面提到过，需要导入 json模块处理。现在企业公司一般常见的接口因为json数据容易处理，所以绝大多数返回数据也是
第4章数据处理-php数组的处理-郑阿奇
1.数组的处理： 1.1 数组的创建和初始化： 1.arrary()函数创建数组，默认情况下0元素是数组的第一个元素， count()和sizeof()函数获得数
angularjs - 内联 CKEditor + AngularJS + 数据处理
我正在尝试将 CKEditor 与 AngularJS 结合使用，用于具有数据绑定(bind)的 WYSIWYG 编辑器，一切似乎都运行良好。极端的可配置性对我们的需求匹配有很大帮助。我们现在面临表
machine-learning - 数据处理 - 随机投影和子采样..执行所有这些操作的正确顺序是什么？
我正在对负样本和正样本进行文本二元分类任务，我想包括以下所有内容: 处理数据..(例如标记化) 特征选择，例如 Chi2 应用随机投影，因为我有一个大型稀疏矩阵(n_samples:974，n_fea
python - 我如何删除 Pandas 中的过滤器数据(数据处理)
数据与我在 Pandas 系列: data = ["1. stock1 (1991)", "3. stock13 (1993)", "5. stock19 (1999)", "89. stock
第4章数据处理-php字符串的处理-郑阿奇(续)
1.字符串的定义与显示定义:通过””,''来标志显示:echo()和print(),但print()具有返回值值，1，而echo()没有，但echo比print()要快，
第4章数据处理-php正则表达式-郑阿奇(续)
1.正则表达式基础知识含义：由普通字符和（a-z)和一些特殊字符组成的字符串模式功能：有效性验证。替换文本。从一个字符串提取一个子字符串。&n
amazon-web-services - CloudWatch 成本 - 数据处理
我想知道是否可以在我的 Cost Explorer 中发现这个成本背后的资源，按使用类型分组我可以看到它是数据处理字节，但我不知道哪个资源会消耗这个数量数据的。知道如何在 CloudWatch 上发现
jquery - SQL Server 中的 JSON 数据处理
我有一个 Json 字符串。我想从该 Json 字符串中获取值。这是我的 json 字符串{“纬度”:“22.5712854”}，{“经度”:“88.4266847”} 我只需要使用 TSQL 查询

首页

博学

6Ren·AI

商城

hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge