gpt4 book ai didi

python - sys.stdout.write() 在 MRJOB 映射器中去哪里?

转载 作者:行者123 更新时间:2023-11-28 18:38:56 25 4
gpt4 key购买 nike

mrjob.conf

runners:
emr:
aws_access_key_id: **
aws_secret_access_key: **
aws_region: us-east-1
aws_availability_zone: us-east-1a
ec2_key_pair: scrapers2
ec2_key_pair_file: ~/arachnid.pem
ec2_instance_type: c3.8xlarge
ec2_master_instance_type: c3.8xlarge
num_ec2_instances: 3
python_bin: python2.6
interpreter: python2.6
ami_version: 2.4.11
iam_job_flow_role: EMR_DefaultRole
jobconf: {"mapred.task.timeout": 600000, "mapred.output.direct.NativeS3FileSystem": false}
base_tmp_dir: /tmp
enable_emr_debugging: true
cmdenv:
TZ: America/New_York
s3_log_uri: s3://mrjob-lists/tmp/logs/
s3_scratch_uri: s3://mrjob-lists/tmp/
output_dir: s3://mrjob-lists/output
ssh_tunnel_is_open: true
ssh_tunnel_to_job_tracker: true

我正在使用 emr 来运行作业,我的映射器任务有:

print "test"

还有

sys.stdout.write("TEst")

但是,我无法在 S3 上的标准输出文件中找到此输出。输出写在哪里?

最佳答案

Hadoop 1 作业的映射器标准输出应该出现在 /task-attempts/job_#####_##/attempt_#####_##_##/stdout 下的 S3 日志中.gz

将这些推送到 S3 确实需要一些时间。如果让集群保持运行,您可以检查 Hadoop JobTracker Web 界面,并确保它在作业执行后立即出现在本地日志中。

关于python - sys.stdout.write() 在 MRJOB 映射器中去哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29421259/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com