- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
试图找出一种方法来回填 ds 分区 Hive 表的分区。
我知道如何从 CLI 运行 Hive 命令,例如
$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'
我想做的是提供不同 DS 的 .txt 文件,并为每个 DS 运行一个新作业,例如
$HIVE_HOME/bin/hive -e 'INSERT OVERWRITE PARTITION ds = $DS_VARIABLE_HERE
select a.col from tab1 a where ds = $DS_VARIABLE_HERE'
但我不太确定该怎么做
我想试试
cat date_file.txt | hive -e 'query here'
但我不确定如何将 date_file 文件中的变量放入 Hive 查询字符串中。
最佳答案
我的建议是使用 shell 命令遍历值:
选项 1:
If you have fixed set of values you want to iterate through then
DS_VARIABLE_HERE=('val1' 'val2' 'val3')
for ((i=0;i<${#DS_VARIABLE_HERE[@]};i++))
do
$HIVE_HOME/bin/hive -e "INSERT OVERWRITE PARTITION ds = ${DS_VARIABLE_HERE[$i]} select a.col from tab1 a where ds = ${DS_VARIABLE_HERE[$i]}"
done
选项 2:
if you want to iterate through lets say 1 to 10
for ((i=1;i<=10;i++))
do
$HIVE_HOME/bin/hive -e "INSERT OVERWRITE PARTITION ds = ${i} select a.col from tab1 a where ds = ${i}"
done
关于回填 Hive 表的 Bash 命令——运行多个具有更改日期变量的 Hive 命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38061215/
设置 考虑 df = pd.DataFrame(index=pd.date_range('2016-03-01', '2016-03-08'), columns=list('ABC')) df.ilo
我经常遇到必须从另一个数据源“填写”信息的情况。 例如: x 2 b y 3 c x 4 d w 5 e v 6 f u 7 g t 8
所以这是场景: 我们有一个 m_reading 表,每天都会在其中提取 24 个读数。 在 24 个读数中,23 个是当天的读数,1 个是前一天的读数。 物化 View 应该聚合天数数据。 业务用户可
假设您有一个 Airflow DAG,回填没有意义,这意味着,在它运行一次之后,再快速运行它之后的时间将完全没有意义。 例如,如果您从某个仅每小时更新一次的来源将数据加载到数据库中,那么快速连续发生的
我有一个如下所示的 DAG,dagrun_timeout 设置为 4 小时。当我转到 UI 并清除从 start_date 到 present 的所有任务时,所有 DAG 都设置为运行状态。 4 小时
我的第一篇文章。我在 Google Analytics(分析)中的目标漏斗中遇到了大问题。 我们设置了一个漏斗来跟踪从我们的主要公司网站到在第三方网站上处理的用户注册的注册(使用虚拟网页浏览来跟踪用户
试图找出一种方法来回填 ds 分区 Hive 表的分区。 我知道如何从 CLI 运行 Hive 命令,例如 $HIVE_HOME/bin/hive -e 'select a.col from tab1
https://cloud.google.com/bigquery/docs/reference/datatransfer/rest/ 我正在寻找“bigquery 数据传输服务”的 php 客户端库
我是一名优秀的程序员,十分优秀!