python - Pydoop 卡在 HDFS 文件的 readline 上-6ren

python - Pydoop 卡在 HDFS 文件的 readline 上

转载作者：太空狗更新时间：2023-10-29 21:52:38

24

4

我正在读取目录中所有文件的第一行，在本地它工作正常，但在 EMR 上，此测试在卡在大约 200-300 个文件时失败。ps -eLF 还显示子项增加到 3000，甚至在第 200 行打印。

这是 EMR 读取最大字节数的一些错误吗？pydoop版本pydoop==0.12.0

import os
import sys
import shutil
import codecs
import pydoop.hdfs as hdfs


def prepare_data(hdfs_folder):
    folder = "test_folder"
    copies_count = 700
    src_file = "file"

    #1) create a folder
    if os.path.exists(folder):
        shutil.rmtree(folder)
    os.makedirs(folder)

    #2) create XXX copies of file in folder
    for x in range(0, copies_count):
        shutil.copyfile(src_file, folder+"/"+src_file+"_"+str(x))

    #3) copy folder to hdfs
    #hadoop fs -copyFromLocal test_folder/ /maaz/test_aa
    remove_command = "hadoop fs -rmr "+ hdfs_folder
    print remove_command
    os.system(remove_command)
    command = "hadoop fs -copyFromLocal "+folder+" "+ hdfs_folder
    print command
    os.system(command)

def main(hdfs_folder):
    try:
        conn_hdfs = hdfs.fs.hdfs()
        if conn_hdfs.exists(hdfs_folder):
            items_list = conn_hdfs.list_directory(hdfs_folder)
            for item in items_list:
                if not item["kind"] == "file":
                    continue
                file_name = item["name"]
                print "validating file : %s" % file_name

                try:
                    file_handle = conn_hdfs.open_file(file_name)
                    file_line = file_handle.readline()
                    print file_line
                    file_handle.close()
                except Exception as exp:
                    print '####Exception \'%s\' in reading file %s' % (str(exp), file_name)
                    file_handle.close()
                    continue

        conn_hdfs.close()

    except Exception as e:
        print "####Exception \'%s\' in validating files!" % str(e)



if __name__ == '__main__':

    hdfs_path = '/abc/xyz'
    prepare_data(hdfs_path)

    main(hdfs_path)

最佳答案

我建议使用 subprocess 模块来读取第一行，而不是 pydoop 的 conn_hdfs.open_file

import subprocess
cmd='hadoop fs -cat {f}|head -1'.format(f=file_name)
process=subprocess.Popen(cmd, shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)
stdout, stderr=process.communicate()
if stderr!='':
    file_line=stdout.split('\n')[0]
else:
     print "####Exception '{e}' in reading file {f}".format(f=file_name,e=stdout)
     continue

关于python - Pydoop 卡在 HDFS 文件的 readline 上，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28692535/

24

4

0

文章推荐： c# - WinForms 数据绑定(bind)和外键关系

文章推荐： python - 如何在 Python 脚本中导入和使用 csvkit

文章推荐： android - 在 python 和 android 中通过 AES 算法加密和解密

文章推荐： c# - 优化/自定义 Sharepoint 搜索爬行

android - 如何在 KitKat 中将文件写入可移动 SD 卡(不是外部 SD 卡)？
在 Android 的 API > 19 中是否有任何方法可以获取可移动 SD 卡的路径？与外部 SD 卡一样，我们有 Environment.getExternalStorageDirectory
Android API 19 及更高版本。写入 microSD 卡(外置 SD 卡)
一些 Android 设备有 microSD(或其他存储卡)插槽，通常安装为 /storage/sdcard1 据我所知，自 Android 4.4 起 Google 限制了对此内存的访问，并在 An
Java 卡检测到与智能卡的通信错误
我使用 Java Card 2.1.2 SDK 和 GPShell 作为与设备通信的方式在 Java Card 上构建一个项目。我从 GpShell 测试了 helloworld 示例，并成功发送了
安卓广播接收器和双 SIM 卡
我开发了一个应用程序，它有一个来电接收器，它适用于所有手机。一位用户有一部双 SIM 卡安卓手机。该应用程序适用于第一张 SIM 卡。但是当有人调用他的第二张 SIM 卡时，我们的应用程序不会被调用。
具有固定高度和响应图像的 CSS 卡
我有一个带预览的文件输入。这是笔 Codepen 我想强制高度，我无法理解我该怎么做。我想将此组件的高度固定为 300px(示例)，我还需要保持加载图像的正确纵横比，用灰色背景填充空白。现在我保持宽
gsm - 提供商如何检测到重复的 SIM 卡？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
kivy - 访问可移动 SD 卡
我正在使用此代码访问 SD card : import os from os.path import join from jnius import autoclass #from android.pe
io - 通过无竞争条件的缓冲区将数据写入 SD 卡
我正在为数据记录设备编写固件。它以 20 Hz 的频率从传感器读取数据并将数据写入 SD 卡。但是，向SD卡写入数据的时间并不一致(大约200-300 ms)。因此，一种解决方案是以一致的速率将数据写
html - Bootstrap ，卡+视频不适合手机屏幕
我正在使用以下代码将视频放到网站上，但是在垂直方向上，手机屏幕上只能看到视频的左半部分我不是网络开发人员。有人可以告诉我确切的内容吗，如何使其正确放置在手机屏幕上？是在youtube iframe
javascript - 在单行而不是列中显示 Vuetify 卡？
我正在使用 Vuetify 1.5 和 Vuetify 网格系统来设置我的布局。现在我有一个组件 HelloWorld我将其导入到我的 Parent 中成分。我已经在我的 HelloWorld 中设置
python - 如何并排打印我的 ASCII 卡？
我使用 python 制作了一个简单的二十一点游戏。我制作了游戏的其余部分，但我正在努力放入 ASCII 卡，所以这只是代码的一小部分。我尝试将 * len(phand) 放在附加行的末尾。虽然这确实
twitter - 如何测试 Twitter 卡？
我正在使用玩家卡设置 Twitter 卡。它可以在预览工具中运行，但文档说它需要在“twitter.com 现代桌面浏览器？ native iOs 和 Android Twitter 应用程序？mob
gsm - 如何以编程方式访问 SIM 卡？
任何旧的 GSM 兼容 SIM 卡(3G USIM 的奖励)。我想我需要一些硬件？谁能为业余爱好者推荐一些便宜的东西，以及一些更专业的东西？我认为会有一个带有硬件的 API 的完整文档，所以也许这
python - 如何并排打印我的 ASCII 卡？
我使用 python 制作了一个简单的二十一点游戏。我制作了游戏的其余部分，但我正在努力放入 ASCII 卡，所以这只是代码的一小部分。我尝试将 * len(phand) 放在附加行的末尾。虽然这确实
process - 用于并行计算的 CPU 卡？
我记得前一段时间读到有 cpu 卡供系统添加额外的处理能力来进行大规模并行化。任何人都有这方面的经验和任何资源来研究项目的硬件和软件方面吗？这项技术是否不如传统集群？它更注重功率吗？最佳答案有两个
java - 外部存储并不指大容量内部 SD 卡
我检查外部存储是否已安装并且可用于读/写，然后从中读取。我使用的是确切的官方 Android 示例代码 ( from here )。它说外部存储未安装。 getExternalFilesDir(nu
Android 应用程序下载到 SD 卡
在 Android 2.1 及更低版本中，Android 应用程序可以请求下载到 SD 卡上吗？另外我想知道应用程序是否可以请求一些包含视频的文件夹下载到 SD 卡上？以及如何做到这一点？提前致谢。
c++ - 驱动程序拒绝访问 PCI 卡
我们编写了一个 Windows 设备驱动程序来访问我们的自定义 PCI 卡。驱动程序使用 CreateFile 获取卡的句柄。我们最近在一次安装中遇到了问题，卡似乎停止工作了。我们尝试更换卡(更换似
Android:查找设备是否具有双 SD 卡
有些新设备(例如 Samsung Galaxy)带有两个 SD 卡。我想知道是否有任何方法可以确定设备是否有两张 SD 卡或一张 SD 卡。谢谢最佳答案我认为唯一的方法是使用检查可用根的列表 F
android - 无法访问 SD 卡
我正在尝试将文件读/写到 SD 卡。我已经尝试在我的真实手机和 Eclipse 中的模拟器上执行此操作。在这两种设备上，对/mnt/sdcard/或/sdcard 的权限仅为“d--------”，我

首页

博学

6Ren·AI

商城

python - Pydoop 卡在 HDFS 文件的 readline 上