google-cloud-platform - 使用属性文件向 Google Dataproc 提交 Pig 作业时出错-6ren

google-cloud-platform - 使用属性文件向 Google Dataproc 提交 Pig 作业时出错

转载作者：行者123 更新时间：2023-12-05 05:30:05

26

4

我是 Dataproc 的新手，正在尝试通过 gcloud 向 google dataproc 提交一份 pig 作业

   gcloud config set project PROJECT

  gcloud dataproc jobs submit pig   --cluster=cluster-workaround   --region=us-east4   --verbosity=debug   --properties-file=gs://bucket/cvr_gcs_one.properties --file=gs://bucket-temp/intellibid-intermediat-cvr.pig

具有以下属性文件

jarLocation=gs://bucket-data-science/emr/jars/pig.jar
pigScriptLocation=gs://bucket-data-science/emr/pigs
logLocation=gs://bucket-data-science/prod/logs
udf_path=gs://bucket-data-science/emr/jars/udfs.jar
csv_dir=gs://bucket-db-dump/prod
currdate=2022-12-13
train_cvr=gs://bucket-temp/{2022-12-09}
output_dir=gs://analytics-bucket/outoout

下面是上传到GCS的pig脚本示例

 register $udf_path;

 SET default_parallel 300;
 SET pig.exec.mapPartAgg true; -- To remove load on combiner

 SET pig.tmpfilecompression TRUE          -- To make Compression true between 
 MapReduce Job Mainly when using Joins
 SET pig.tmpfilecompression.codec gz     -- To Specify the type of compression between MapReduce Job
 SET mapreduce.map.output.compress TRUE      --To make Compression true between Map and Reduce
 SET mapreduce.map.output.compress.codec org.apache.hadoop.io.compress.GzipCodec
 set mapred.map.tasks.speculative.execution false
 SET mapreduce.task.timeout 10800000
 set mapreduce.output.fileoutputformat.compress true
 set mapreduce.output.fileoutputformat.compress.codec 
 org.apache.hadoop.io.compress.GzipCodec
 SET mapreduce.map.maxattempts 16
 SET mapreduce.reduce.maxattempts 16
 SET mapreduce.job.queuename HIGH_PRIORITY

 define GSUM com.java.udfs.common.javaSUM();
 define get_cvr_key com.java.udfs.common.ALL_CTR_MODEL('$csv_dir', 'variableList.ini')
 define multiple_file_generator com.java.udfs.common.CVR_KEY_GENERATION('$csv_dir','newcampaignToKeyMap')

  train_tmp1 = load '$train_cvr/' using PigStorage('\t','-noschema') as (cookie,AdvID,nviews,ls_dst,ls_src,ls_di,ls_ft,ls_np,tos,nsess,e100_views,e200_views,e300_views,e400_views,e100_tos,e200_tos,e300_tos,e400_tos,uniq_prod,most_seen_prod_freq,uniq_cat,uniq_subcat,search_cnt,click_cnt,cart_cnt,HSDO,os,bwsr,dev,hc_c_v,hc_c_tp,hc_c_up,hc_c_ls,hc_s_v,hc_s_tp,hs_s_up,hc_s_ls,hc_clk_pub,hc_clk_cnt,hc_clk_lm,hp_ls_v,hp_ls_c,hp_ls_s,hp_ms_v,hp_ms_c,hp_ms_s,hu_v,hu_c,hu_s,purchase_flag,hp_ls_cvr,hp_ls_crr,hp_ms_cvr,hp_ms_crr,mpv,gc_c_tp,gc_clk_cnt,gc_c_up,gc_clk_lm,gc_c_v,gc_c_ls,gc_s_v,gc_s_lsts,gc_s_tp,gc_s_up,gc_clk_pub,epoch_ms,gc_ac_s,gc_ac_clk,gc_ac_vclk,udays,hc_vclk_cnt,gc_vclk_cnt,e205_view,e205_tos,AdvID_copy,hc_p_ms_p,hc_c_ms_p,most_seen_cat_freq,hc_p_ls_p,currstage,hc_c_city);

低于错误

INFO  org.apache.pig.impl.util.Utils - Default bootup file /root/.pigbootup not found
ERROR org.apache.pig.impl.PigContext - Undefined parameter : udf_path
2022-12-13 11:58:51,504 [main] 
ERROR org.apache.pig.Main - ERROR 2997: Encountered IOException. 
org.apache.pig.tools.parameters.ParameterSubstitutionException: Undefined parameter : udf_path

也尝试了大多数使用控制台的方法，但没有得到很好的文档。

查询参数字段(指定要插入的参数名称和值以代替查询文件中的参数条目。查询在运行时使用这些值。)和属性字段(键列表-值对来配置作业。) 在用户界面中

有人可以在这里指导我做错了什么以及我如何在 Dataproc 中运行 pig 脚本

最佳答案

像下面这样传递，

  gcloud config set project PROJECT

  gcloud dataproc jobs submit pig   --cluster=cluster-workaround   --region=us-east4   --verbosity=debug   --properties-file=gs://bucket/cvr_gcs_one.properties --file=gs://bucket-temp/your_pig.pig --params udf_path=gs://your_udfs.jar

关于google-cloud-platform - 使用属性文件向 Google Dataproc 提交 Pig 作业时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/74784729/

26

4

0

文章推荐： python - Polars - 根据另一列为每一行连接可变数量的列

文章推荐： vite - 如何将vite 3项目更新到vite 4？

apache-pig - 在嵌入式 pig 程序中执行具有多个商店的 pig 脚本文件
我想在嵌入式 pig 程序中执行一个 pig 脚本文件，如下所示 ----testPig.pig----- A = load '/user/biadmin/student' using PigStor
apache-pig - Pig - 如何将日期时间转换为字符数组
我正在使用 CurrentTime()，它是一种日期时间数据类型。但是，我需要它作为字符数组。我有以下几点: A = LOAD ... B = FOREACH A GENERATE CurrentTi
apache-pig - pig 在色调内不可见
我有一个 hadoop 集群。安装了 pig : 但是在 Hue (3.7) 中看不到 Pig 编辑器: 我该如何解决？最佳答案你能检查一下你的hue.ini文件吗在解释器部分，如下图 # O
apache-pig - Pig - 日期字符串到长转换
我在源文本文件中有一些日期值，如下面的第 3 列 123|text|2000-02-05 01:00:00-0500|true 如何将它们转换为 Pig 拉丁语中相应的 long 值？谢谢。 a =
apache-pig - pig 转储不能带表情？
看来我做不到 dump (limit A 10); 尽管 B = limit A 10; dump B; 似乎工作。为什么？这似乎违反直觉。最佳答案确实是你不能这样做。我相信为什么的问题不在范
apache-pig - pig -如何在JOIN之后引用FOREACH中的列？
A = load 'a.txt' as (id, a1); B = load 'b.txt as (id, b1); C = join A by id, B by id; D = foreach C
apache-pig - pig 储存条件
假设我有一个输入文件作为 map 。 sample.txt [1#"anything",2#"something",3#"anotherthing"] [2#"kish"] [3#"mad"] [4#
apache-pig - PIG 减去两个日期
我正在尝试用 PIG 减去两个日期。我有这样的数据: key_one, activation_date , deactivation_date (1456,2010-06-14 00:00:00,2
apache-pig - Pig - 加载具有不同架构的多个文件
我正在与 pig 一起加载以逗号分隔的文件/文件夹 hadoop 范围。( this question on how to load multiple files in pig 问题是每个文件夹都有不
apache-pig - pig 的双引号和单引号有什么区别？
我一直认为 '' 和 "" 在 pig 中是一样的，但今天我得到了 Unexpected character '"' 出错 register datafu-pig-1.2.1.jar define C
java - Apache Pig : unable to run my own pig. jar 和 pig-withouthadoop.jar
我有一个运行 Hadoop 0.20.2 和 Pig 0.10 的集群。我有兴趣向 Pig 的源代码添加一些日志，并在集群上运行我自己的 Pig 版本。我做了什么: 使用'ant'命令构建项目得到
apache-pig - 更改为 Pig 版本 0.10.0 导致的 Apache Pig 错误 2218
我无能为力地试图解决这个问题。我的脚本和 UDF 可以在 Pig 0.8.1 上完美运行，但是当我尝试在 Pig 0.10.0 上运行时，我得到: ERROR org.apache.pig.tools
hadoop - 执行 Pig 脚本 -x local script.pig 和 just script.pig 之间的区别
目前我正在执行我的脚本: /usr/bin/pig /somepath/myscript.pig 出于某种原因，pig 总是卡在这个阶段。 2014-01-28 16:49:31,328 [main]
apache-pig - 无法删除 Pig 中的特殊字符
我有一个要加载到 Pig Engine 上的文本文件，文本文件在单独的行中有名称，数据但有错误......特殊字符......像这样: Ja@@$s000on J@@a%^ke T!!ina M
apache-pig - 我可以在 pig 的多个列上做不同的处理吗？
我有一个用例，我需要计算两个字段的不同数量。 sample : x = LOAD 'testdata' using PigStorage('^A') as (a,b,c,d); y = GROUP x
apache-pig - 使用 pig，如何将混合格式行解析为元组和一袋元组？
我是 Pig 的新手，在解析我的输入并将其转换为我可以使用的格式时遇到了问题。输入文件包含具有固定字段和 KV 对的行，如下所示: FF1|FF2|FF3|FF4|KVP1|KVP2|...|KVPn
apache-pig - 如何使用 PIG 加载文件夹中的每个文件？
我有一个每天创建的文件文件夹，所有文件都存储相同类型的信息。我想制作一个脚本，加载最新的 10 个，将它们联合起来，然后在它们上运行一些其他代码。由于 pig 已经有一个 ls 方法，我想知道是否有一
apache-pig - Apache Pig rank函数的使用
我正在使用 Pig 0.11.0 排名函数并为我的数据中的每个 id 生成排名。我需要以特定方式对我的数据进行排名。我希望每个新 ID 的排名都重置并从 1 开始。是否可以直接使用 rank 函数
apache-pig - 在 Pig 中投影分组元组
我有一个 (t,a,b) 形式的元组集合，我想在 Pig 中按 b 对它们进行分组。一旦分组，我想从每组中的元组中过滤出 b 并为每组生成一袋过滤后的元组。例如，假设我们有 (1,2,1) (2,0
apache-pig - pig : how to exit on failure?
-- do something store result into '$RESULT.tmp'; rmf $RESULT mv $RESULT.tmp $RESULT 如果在 rmf $RESULT

首页

博学

6Ren·AI

商城

google-cloud-platform - 使用属性文件向 Google Dataproc 提交 Pig 作业时出错