python - 使用pydoop将文件复制到hdfs-6ren

python - 使用pydoop将文件复制到hdfs

转载作者：可可西里更新时间：2023-11-01 15:18:47

29

4

我正在尝试编写用于将文件复制到 hdfs 的 python 脚本。我在 ubuntu 上工作并安装了 hadoop 和 pydoop。以下代码是我的脚本:

import pydoop.hdfs as hdfs

class COPYTOHDFS():

    local_path = '/home/user/test.txt'
    hdfs_path = '/testfile'
    host = 'master'
    port = 9000
    hdfsobj = hdfs.hdfs(host, port, user='cloudera-user', groups=['supergroup'])
    hdfsobj.copy(local_path, hdfsobj, hdfs_path)

错误在这里:

Traceback (most recent call last):
  File "COPYTOHDFS.py", line 3, in <module>
    class COPYTOHDFS():
  File "COPYTOHDFS.py", line 10, in COPYTOHDFS
    hdfsobj.copy(local_path, hdfsobj, hdfs_path)
  File "/usr/local/lib/python2.7/dist-packages/pydoop-0.5.2_rc2-py2.7-linux-x86_64.egg/pydoop/hdfs.py", line 458, in copy
    return super(hdfs, self).copy(from_path, to_hdfs, to_path)
IOError: Cannot copy /home/user/test.txt to filesystem on master

错误没有详细说明。有什么想法吗？

最佳答案

在您的 conf/core-site.xml 中，您应该为 fs 操作设置 tmp 目录。如果您忘记在这些目录上设置运行用户的所有权和权限，则会出现 IO 异常，请检查。

关于python - 使用pydoop将文件复制到hdfs，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10380496/

29

4

0

文章推荐： Hadoop:如何将任务统一分发到所有节点

文章推荐： hadoop - Hive 外部表的最大列数

文章推荐： hadoop - HBase "between"过滤器

python - Pydoop 在大数据分析和数据科学中的重要性
我是数据科学和大数据框架的新手。可以说，我在 CSV 中有一个 DataSet 输入。我从谷歌和其他资源中发现了关于数据分析师和数据科学家日常工作的信息，一旦用户获得 DataSet，首先将在
java - Pydoop 作业未运行
我已经设置了一个单节点 Hadoop 1.2.1 集群并尝试运行此脚本: pydoop script transpose.py matrix.txt t_matrix 脚本不返回任何内容，作业处于挂起
python - Pydoop vs Mrjob在Hadoop上进行图像处理
我想在 Hadoop 平台上处理图像(最有可能是大尺寸的图像)，但是我对于从上述2个界面中选择哪一个感到困惑，特别是对于仍然是Hadoop初学者的人。考虑到需要将图像分成块以在工作机之间分配处理并在处
python - pip 安装 pydoop 问题
当我在 Ubuntu 16.0.4 中安装 pydoop 时，出现如下错误: ~$ pip install pydoop Collecting pydoop Using cached pydoop
python - Pydoop 安装(类路径问题)？ [解决了]
我一直在努力安装 pydoop。我按照此页面上的说明进行操作 http://crs4.github.io/pydoop/installation.html 。当我运行 pip install pyd
python - Jupyter 中的 Pydoop 失败
我在同一台机器上安装了带有 HDP 和 iPython/Jupyter 的 Ubuntu O/S。我能够使用 Python2 内核通过 Jupyter notebook 运行各种命令。但是我在 Ju
python - Amazon EMR 上的 Pydoop
我将如何使用 Pydoop在 Amazon EMR 上？我尝试用谷歌搜索这个主题但无济于事:有可能吗？最佳答案我终于搞定了。一切都发生在主节点上...作为用户 hadoop ssh 到该节点你
python - 在 Celery 任务中时 Pydoop 调用不起作用
我已经使用 Celery 为项目设置了两个文件和 Pydoop , tasks.py 和 HDFStorage.py # tasks.py from celery import Celery from
java - Pydoop Java home not set 安装问题
当我回显 $JAVA_HOME 时，我得到了 Java 的路径。 Hadoop 也在运行，但是 pydoop 安装由于这个错误而失败。 Traceback (most recent call last
python - pydoop vs hadoopy - hadoop python 客户端
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
python - 如何在新的 Ubuntu 实例上安装 Hadoop 和 Pydoop
我看到的大多数设置说明都很冗长。是否有一组类似脚本的命令，我们只需执行这些命令即可在 Amazon EC2 上的 Ubuntu 实例上设置 Hadoop 和 Pydoop？最佳答案另一种解决方案是
python - Pydoop 卡在 HDFS 文件的 readline 上
我正在读取目录中所有文件的第一行，在本地它工作正常，但在 EMR 上，此测试在卡在大约 200-300 个文件时失败。ps -eLF 还显示子项增加到 3000，甚至在第 200 行打印。这是 EM
python-3.x - 从 pydoop 访问 hdfs 集群
我在同一个谷歌云平台上有 hdfs 集群和 python。我想从 python 访问 hdfs 集群中存在的文件。我发现使用 pydoop 可以做到这一点，但我可能正在努力为它提供正确的参数。以下是我
python - 在 python 中使用 pydoop 保存 gzip 文件
我正在使用 pydoop 在 pyspark 中读取和写入文件。我想以 gzip 格式编写作业输出。我当前的代码如下所示: def create_data_distributed(workerNum,
python - python 3.4.3 上的 pydoop 安装
我正在尝试通过以下命令安装 pydoop pip3.4 install pydoop 安装因以下错误而中断 Complete output from command python setup.py e
Python 2.7.6 Pydoop 在 Ubuntu 上安装失败
我在安装 pydoop 包时遇到这个错误: root@ubuntu:~# pip install pydoop Downloading/unpacking pydoop Downloading p
python - Pydoop mapreduce "AttributeError: module ' wordcount_minimal' 没有属性 '__main__' "
我安装了 Pydoop 并正在尝试运行 MapReduce 作业。只是为了试运行，我尝试执行字数统计示例 wordcount_minimal.py 和 wordcount_full.py。他们都卡在
python-2.7 - Oozie python 工作流中的 ImportError : No module named pydoop. hdfs
我写了一个将本地文件复制到 HDFS 的 python 脚本。在集群的所有节点中将 python 版本 2.6 升级到 2.7。安装pydoop-1.0版本并使用CDH 5.4 如果我在命令行中运行
python - 在 CDH 5.3.0 上安装 pydoop 1.0.0-rc1
我正在尝试在运行 CDH 5.3.0 的 Linux 服务器上升级到 pydoop 1.0.0-rc1。我能够在另一个运行 CDH 5.1.2 的环境中完成安装。我运行命令“pip install -
java - Pydoop 错误 : RuntimeError: java home not found, 尝试使用 CDH5.4 在远程服务器上设置 JAVA_HOME
目标:使用 pydoop 从我的笔记本电脑读取存储在 HDFS 中的远程文件。我用的是pycharm专业版。我正在使用 Cloudera CDH5.4 我的笔记本电脑上的 pyCharm 配置:在项目

首页

博学

6Ren·AI

商城

python - 使用pydoop将文件复制到hdfs