hadoop - VM cloudera - 用户cloudera和权限？-6ren

hadoop - VM cloudera - 用户cloudera和权限？

转载作者：可可西里更新时间：2023-11-01 14:31:43

27

4

我下载并安装了 VM Cloudera 4.4 来玩 Hadoop。我的工作平台上已经有一个集群，所以我对 hadoop 的工作原理略有了解。所以我认为我的问题来自于我对linux和他的用户和群体的误解。

使用 hive :

我尝试用 shell 创建一个 hive 表，它成功了。我在/user/hive/warehouse/test 中有一张表属于 cloudera 组的用户 cloudera。

我在 hdfs 中有一些数据文件 (.txt):/user/cloudera(user:cloudera 和组:hive)，我将它们加载到我的配置单元表中:

LOAD DATA INPATH '/user/cloudera/*.txt' INTO TABLE test;

这是我得到的:

hive> LOAD DATA INPATH '/user/cloudera/jeuDeTest/*.txt' INTO TABLE test;
Loading data to table default.test
chgrp: changing ownership of '/user/hive/warehouse/test/_log24310.txt': User does not belong to hive
chgrp: changing ownership of '/user/hive/warehouse/test/_log24311.txt': User does not belong to hive
Table default.test stats: [num_partitions: 0, num_files: 2, num_rows: 0, total_size: 10161843, raw_data_size: 0]
OK
Time taken: 2.472 seconds

我从未收到过此类错误消息，但文件已移动。如果我尝试 SELECT *，则没有结果。

使用 HBase:

我在使用 HBase 时也遇到了一些困难。我可以创建一个表，但是当我使用 importTSV 时:

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv 
-Dimporttsv.columns=HBASE_ROW_KEY,cf:nl,ch:nt,cf:ti,cf:ip,cf:cr,cf:am,cf:op,cf:mr,cf:ct 
'-Dimporttsv.separator=|' testhbase -Dimporttsv.skip.bad.lines=false  
/user/cloudera/jeuDeTest/*.txt

我有这个错误:

ERROR security.UserGroupInformation: PriviledgedActionException as:hdfs (auth:SIMPLE) 
cause:org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: 
hdfs://localhost.localdomain:8020/user/cloudera/jeuDeTest/_logGeneral_C_24310_SO.txt
Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:     
hdfs://localhost.localdomain:8020/user/cloudera/jeuDeTest/_logGeneral_C_24310_SO.txt

我认为这个问题是由于权限引起的，但我不知道如何才能有权执行请求，什么是更好的方法。 (在我工作的平台上，我是root，我没有所有这些困难，但我不明白它是如何工作的)

感谢您阅读我的内容。

天使

我尝试将我的 cloudera 用户添加到组配置单元。我在加载期间没有错误，但我总是没有选择结果。

hive> LOAD DATA INPATH '/user/cloudera/jeuDeTest/*.txt' INTO TABLE test;                     
Loading data to table default.test
Table default.test stats: [num_partitions: 0, num_files: 10, num_rows: 0, total_size: 10161843,   raw_data_size: 0]
OK
Time taken: 0.486 seconds
hive> select * from test limit 20;
OK
Time taken: 0.303 seconds

最佳答案

我在权限方面遇到了同样的问题 -> chgrp:更改“/user/hive/warehouse/test/_log24310.txt”的所有权:用户不属于 hive。

使用以下命令将名为 cloudera 的现有用户添加到名为 hive 的现有组:usermod -a -G hive cloudera
重启系统
使用加载命令，然后执行 select * from table_name -> No data was getting displayed。
执行了 select count(*) from table_name 并启动了 MapReduce 作业。
执行了 select * from table，现在结果已正确返回。
使用 impala-shell 命令打开了一个 impala shell。
执行了 select * from table_name 但未返回任何结果。
执行的命令使 impala-shell 中的元数据无效
执行命令刷新table_name
执行命令显示表
执行命令 select * from table_name，现在结果显示在 impala-shell 和 hive shell 中。

关于hadoop - VM cloudera - 用户cloudera和权限？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21605960/

27

4

0

文章推荐： authentication - HBase 一直在做简单的身份验证

文章推荐： hadoop - 防止 MapReduce 程序中的输入拆分

文章推荐： performance - 使映射器处理多个文件而不是单个文件

文章推荐： perl - 在组合器中使用管道的 Hadoop 流作业

java - android dalvik vm 是 java vm 的副本还是单独的 vm
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭11 年前。 Improve th
Azure VM - 重新部署 VM
我是 Azure 平台的初学者。我在公司的 Azure 基础架构中遇到了虚拟机问题，在我从操作系统重新启动后，该虚拟机无法启动，我尝试了所有其他故障排除功能，但仍遇到以下问题: 重新部署选项。我想确
xampp-vm - 如何在Mac上SSH转换为xampp-vm？
我在 Mac 上使用 XAMPP-VM，我尝试使用 xampp 管理器上显示的地址通过 ssh 连接到 VM: 192.168.65.2 我意识到我不知道 VM 的 root 密码和任何 ssh-ke
java - 在 Dalvik VM(Android 的 VM)上，您不能在 Sun VM 中做什么？
我知道你可以在 Dalvik 的 VM 中运行几乎所有的 Java，而你可以在 Java 的 VM 中运行，但是限制不是很清楚。有没有人遇到任何主要的绊脚石？有什么大图书馆有问题吗？任何编译成 Jav
windows - Azure Windows VM 扩展正在预配失败状态 VM 代理为 "Ready"，但备份在 VM 运行状态 GuestAgentSnapshotTaskStatusError 时失败
Azure VM 备份失败，出现错误 - GuestAgentSnapshotTaskStatusErrorAzure 备份服务无法与 VM 代理通信以触发快照(以进行备份)，因为 VM 代理可能处于
VM 停止时的 Azure VM 软件成本
我想知道当虚拟机停止时，虚拟机的软件成本部分是否收费。我想运行 Azure SQL VM Enterprise。 VM 每月的软件成本为“1,116 美元/月”。如果我停止使用，我仍需支付该软件的费
proxmox - 将 VM 的现有磁盘迁移并附加到远程计算机上的另一个 VM
有 2 台安装了 Proxmox (Proxmox-ve 4.2) 的物理服务器，每台都处理几个虚拟机和容器。这些服务器(几乎)完全隔离，它们之间没有集群/共享存储/附加存储等。已在 proxmox
VM 停止时的 Azure VM 软件成本
我想知道当虚拟机停止时，虚拟机的软件成本部分是否收费。我想运行 Azure SQL VM Enterprise。 VM 每月的软件成本为“1,116 美元/月”。如果我停止使用，我仍需支付该软件的费
proxmox - 将 VM 的现有磁盘迁移并附加到远程计算机上的另一个 VM
有 2 台安装了 Proxmox (Proxmox-ve 4.2) 的物理服务器，每台都处理几个虚拟机和容器。这些服务器(几乎)完全隔离，它们之间没有集群/共享存储/附加存储等。已在 proxmox
vm-implementation - Parrot VM 对最终用户有什么好处？
Parrot Virtual Machine 有什么好处？对于最终用户(软件开发人员)？例如，如果我可以直接针对 Perl 或 Python 进行编程，我为什么还要在 Parrot 下为它们编程呢？
java - 什么是 VM，为什么动态语言需要 VM？
例如，Python 和 Java 有一个 VM，而 C 和 Haskell 没有。 (如果我错了，请纠正我) 想了想线路两边都有哪些语言，找不到原因。 Java 在很多方面都是静态的，而 Haskel
image - 如何使用 power shell 捕获 VM 创建类型为 "Specialized"的 Azure VM 镜像？或如何创建 RM VM 的专用镜像？
我知道虚拟机镜像有两种类型:通用型和专用型。如果操作系统已通用化/取消配置，则必须关闭虚拟机才能将其捕获为 VM 镜像。一旦 VM 被捕获为 VM 镜像，该虚拟机将自动删除。如果操作系统是专用，则
image - 如何使用 power shell 捕获 VM 创建类型为 "Specialized"的 Azure VM 镜像？或如何创建 RM VM 的专用镜像？
我知道虚拟机镜像有两种类型:通用型和专用型。如果操作系统已通用化/取消配置，则必须关闭虚拟机才能将其捕获为 VM 镜像。一旦 VM 被捕获为 VM 镜像，该虚拟机将自动删除。如果操作系统是专用，则
python - 来自主机的 nc -> VM 工作(端口 9050)，但 VM(运行用 Python 编写的服务器)重置连接 [TCP RST] 来自主机 -> VM 在同一端口(9050)
背景信息我正在开发一种支持网络的嵌入式设备，旨在与服务器进行通信。因为此服务器将运行 Linux(但我需要 Windows 工具进行开发)，我正在运行带有 Ubuntu Server 14.04 的
azure - 如何从云服务和可用性集中的一个 Azure VM 安全地访问另一个 VM
我有一个 Azure 云服务 mywebapp.cloudapp.net，它由两个 Azure VM - mywebappvm1 和 mywebappvm2 组成。两个虚拟机位于同一可用性集中并具有相
azure - 调整 Azure VM 大小而不重新启动 VM
有什么方法可以在不重新启动虚拟机的情况下调整现有虚拟机的大小，还是总是像停止虚拟机然后重新启动一样？据我了解，我可以更改虚拟机的大小而无需重新启动它。请指导我，因为我不希望虚拟机在调整大小时出现任何
azure - 配置失败。 VM 'VM Name' 的操作系统配置未在分配的时间内完成
我是 Azure 新手。我正在尝试使用 powershell 在 Azure 中创建资源。我的要求是从虚拟机创建镜像。我遵循了以下方法: 流程 1:手动执行通用化虚拟机:登录虚拟机 -> 打开命令
azure - 创建 VM 并将 VM 关联到现有虚拟网络
我创建了虚拟网络，并且想要将新虚拟机部署到该虚拟网络。网络我尝试使用以下命令创建虚拟机: az vm create --resource-group myGroup --name VMTestNet
smalltalk - 更改 vm 原语时在 VM 中调试解释器
上下文作为一个大学项目，我们希望更改 pharo 虚拟机以使用对象表，看看会发生什么。我们使用pharo-vm clone from github和VMMaker。构建虚拟机工作正常。首先，我们
docker - 已经创建了一个名为 panamax-vm 的不同 VM
我是巴拿马型的新手，刚刚安装，但收到以下错误消息: A different VM with name panamax-vm has been created already. 我试图通过使用 pana

首页

博学

6Ren·AI

商城

hadoop - VM cloudera - 用户cloudera和权限？