- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 Dataproc 的新手,正在尝试通过 gcloud 向 google dataproc 提交一份 pig 作业
gcloud config set project PROJECT
gcloud dataproc jobs submit pig --cluster=cluster-workaround --region=us-east4 --verbosity=debug --properties-file=gs://bucket/cvr_gcs_one.properties --file=gs://bucket-temp/intellibid-intermediat-cvr.pig
具有以下属性文件
jarLocation=gs://bucket-data-science/emr/jars/pig.jar
pigScriptLocation=gs://bucket-data-science/emr/pigs
logLocation=gs://bucket-data-science/prod/logs
udf_path=gs://bucket-data-science/emr/jars/udfs.jar
csv_dir=gs://bucket-db-dump/prod
currdate=2022-12-13
train_cvr=gs://bucket-temp/{2022-12-09}
output_dir=gs://analytics-bucket/outoout
下面是上传到GCS的pig脚本示例
register $udf_path;
SET default_parallel 300;
SET pig.exec.mapPartAgg true; -- To remove load on combiner
SET pig.tmpfilecompression TRUE -- To make Compression true between
MapReduce Job Mainly when using Joins
SET pig.tmpfilecompression.codec gz -- To Specify the type of compression between MapReduce Job
SET mapreduce.map.output.compress TRUE --To make Compression true between Map and Reduce
SET mapreduce.map.output.compress.codec org.apache.hadoop.io.compress.GzipCodec
set mapred.map.tasks.speculative.execution false
SET mapreduce.task.timeout 10800000
set mapreduce.output.fileoutputformat.compress true
set mapreduce.output.fileoutputformat.compress.codec
org.apache.hadoop.io.compress.GzipCodec
SET mapreduce.map.maxattempts 16
SET mapreduce.reduce.maxattempts 16
SET mapreduce.job.queuename HIGH_PRIORITY
define GSUM com.java.udfs.common.javaSUM();
define get_cvr_key com.java.udfs.common.ALL_CTR_MODEL('$csv_dir', 'variableList.ini')
define multiple_file_generator com.java.udfs.common.CVR_KEY_GENERATION('$csv_dir','newcampaignToKeyMap')
train_tmp1 = load '$train_cvr/' using PigStorage('\t','-noschema') as (cookie,AdvID,nviews,ls_dst,ls_src,ls_di,ls_ft,ls_np,tos,nsess,e100_views,e200_views,e300_views,e400_views,e100_tos,e200_tos,e300_tos,e400_tos,uniq_prod,most_seen_prod_freq,uniq_cat,uniq_subcat,search_cnt,click_cnt,cart_cnt,HSDO,os,bwsr,dev,hc_c_v,hc_c_tp,hc_c_up,hc_c_ls,hc_s_v,hc_s_tp,hs_s_up,hc_s_ls,hc_clk_pub,hc_clk_cnt,hc_clk_lm,hp_ls_v,hp_ls_c,hp_ls_s,hp_ms_v,hp_ms_c,hp_ms_s,hu_v,hu_c,hu_s,purchase_flag,hp_ls_cvr,hp_ls_crr,hp_ms_cvr,hp_ms_crr,mpv,gc_c_tp,gc_clk_cnt,gc_c_up,gc_clk_lm,gc_c_v,gc_c_ls,gc_s_v,gc_s_lsts,gc_s_tp,gc_s_up,gc_clk_pub,epoch_ms,gc_ac_s,gc_ac_clk,gc_ac_vclk,udays,hc_vclk_cnt,gc_vclk_cnt,e205_view,e205_tos,AdvID_copy,hc_p_ms_p,hc_c_ms_p,most_seen_cat_freq,hc_p_ls_p,currstage,hc_c_city);
低于错误
INFO org.apache.pig.impl.util.Utils - Default bootup file /root/.pigbootup not found
ERROR org.apache.pig.impl.PigContext - Undefined parameter : udf_path
2022-12-13 11:58:51,504 [main]
ERROR org.apache.pig.Main - ERROR 2997: Encountered IOException.
org.apache.pig.tools.parameters.ParameterSubstitutionException: Undefined parameter : udf_path
也尝试了大多数使用控制台的方法,但没有得到很好的文档。
查询参数字段(指定要插入的参数名称和值以代替查询文件中的参数条目。查询在运行时使用这些值。)和属性字段(键列表-值对来配置作业。) 在用户界面中
有人可以在这里指导我做错了什么以及我如何在 Dataproc 中运行 pig 脚本
最佳答案
像下面这样传递,
gcloud config set project PROJECT
gcloud dataproc jobs submit pig --cluster=cluster-workaround --region=us-east4 --verbosity=debug --properties-file=gs://bucket/cvr_gcs_one.properties --file=gs://bucket-temp/your_pig.pig --params udf_path=gs://your_udfs.jar
关于google-cloud-platform - 使用属性文件向 Google Dataproc 提交 Pig 作业时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74784729/
我想在嵌入式 pig 程序中执行一个 pig 脚本文件,如下所示 ----testPig.pig----- A = load '/user/biadmin/student' using PigStor
我正在使用 CurrentTime(),它是一种日期时间数据类型。但是,我需要它作为字符数组。我有以下几点: A = LOAD ... B = FOREACH A GENERATE CurrentTi
我有一个 hadoop 集群。 安装了 pig : 但是在 Hue (3.7) 中看不到 Pig 编辑器: 我该如何解决? 最佳答案 你能检查一下你的hue.ini文件吗 在解释器部分,如下图 # O
我在源文本文件中有一些日期值,如下面的第 3 列 123|text|2000-02-05 01:00:00-0500|true 如何将它们转换为 Pig 拉丁语中相应的 long 值?谢谢。 a =
看来我做不到 dump (limit A 10); 尽管 B = limit A 10; dump B; 似乎工作。 为什么?这似乎违反直觉。 最佳答案 确实是你不能这样做。 我相信为什么的问题不在范
A = load 'a.txt' as (id, a1); B = load 'b.txt as (id, b1); C = join A by id, B by id; D = foreach C
假设我有一个输入文件作为 map 。 sample.txt [1#"anything",2#"something",3#"anotherthing"] [2#"kish"] [3#"mad"] [4#
我正在尝试用 PIG 减去两个日期。 我有这样的数据: key_one, activation_date , deactivation_date (1456,2010-06-14 00:00:00,2
我正在与 pig 一起加载以逗号分隔的文件/文件夹 hadoop 范围。( this question on how to load multiple files in pig 问题是每个文件夹都有不
我一直认为 '' 和 "" 在 pig 中是一样的,但今天我得到了 Unexpected character '"' 出错 register datafu-pig-1.2.1.jar define C
我有一个运行 Hadoop 0.20.2 和 Pig 0.10 的集群。我有兴趣向 Pig 的源代码添加一些日志,并在集群上运行我自己的 Pig 版本。 我做了什么: 使用'ant'命令构建项目 得到
我无能为力地试图解决这个问题。我的脚本和 UDF 可以在 Pig 0.8.1 上完美运行,但是当我尝试在 Pig 0.10.0 上运行时,我得到: ERROR org.apache.pig.tools
目前我正在执行我的脚本: /usr/bin/pig /somepath/myscript.pig 出于某种原因,pig 总是卡在这个阶段。 2014-01-28 16:49:31,328 [main]
我有一个要加载到 Pig Engine 上的文本文件, 文本文件在单独的行中有名称,数据但有错误......特殊字符......像这样: Ja@@$s000on J@@a%^ke T!!ina M
我有一个用例,我需要计算两个字段的不同数量。 sample : x = LOAD 'testdata' using PigStorage('^A') as (a,b,c,d); y = GROUP x
我是 Pig 的新手,在解析我的输入并将其转换为我可以使用的格式时遇到了问题。输入文件包含具有固定字段和 KV 对的行,如下所示: FF1|FF2|FF3|FF4|KVP1|KVP2|...|KVPn
我有一个每天创建的文件文件夹,所有文件都存储相同类型的信息。我想制作一个脚本,加载最新的 10 个,将它们联合起来,然后在它们上运行一些其他代码。由于 pig 已经有一个 ls 方法,我想知道是否有一
我正在使用 Pig 0.11.0 排名函数并为我的数据中的每个 id 生成排名。 我需要以特定方式对我的数据进行排名。我希望每个新 ID 的排名都重置并从 1 开始。 是否可以直接使用 rank 函数
我有一个 (t,a,b) 形式的元组集合,我想在 Pig 中按 b 对它们进行分组。一旦分组,我想从每组中的元组中过滤出 b 并为每组生成一袋过滤后的元组。 例如,假设我们有 (1,2,1) (2,0
-- do something store result into '$RESULT.tmp'; rmf $RESULT mv $RESULT.tmp $RESULT 如果在 rmf $RESULT
我是一名优秀的程序员,十分优秀!