google-bigquery - BigQuery 中针对大型数据集的 RANK 或 ROW

google-bigquery - BigQuery 中针对大型数据集的 RANK 或 ROW_NUMBER

转载作者：行者123 更新时间：2023-12-03 17:36:51

27

4

我需要将行号添加到 BigQuery 中的大型(约十亿行)数据集。当我尝试:

SELECT 
  *
  ROW_NUMBER() OVER (ORDER BY d_arf DESC) plarf 
FROM [trigram.trigrams8]

我得到“查询执行期间资源超出。”，因为分析/窗口函数需要适合一个节点。

如何向 BigQuery 中的大型数据集添加行号？

最佳答案

你没有给我一个有效的查询，所以我必须创建我自己的，所以你需要将它转换到你自己的问题空间。另外，我不确定为什么要为如此庞大的数据集中的每一行指定一个行号，但接受了挑战:

SELECT a.enc, plarf, plarf+COALESCE(INTEGER(sumc), (0)) row_num
FROM (
  SELECT STRING(year)+STRING(month)+STRING(mother_age)+state enc, 
         ROW_NUMBER() OVER (PARTITION BY year ORDER BY enc) plarf,
         year
  FROM [publicdata:samples.natality] ) a
LEFT JOIN (
  SELECT COUNT(*) c, year+1 year, SUM(c) OVER(ORDER BY year) sumc
  FROM [publicdata:samples.natality] 
  GROUP BY year
) b
ON a.year=b.year

我想做一个 ROW_NUMBER() OVER()，但我不能，因为元素太多。

使用 OVER(PARTITION) 修复了这个问题，但现在每个分区都以 1 开头。

不过没关系。在另一个子查询中，我将计算每个分区中有多少元素。

周围的查询将获取每个分区的 row_number，并将其添加到本地到分区计数中。

达。

关于google-bigquery - BigQuery 中针对大型数据集的 RANK 或 ROW_NUMBER，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33247703/

27

4

0

文章推荐： python - 优化python代码

文章推荐： performance - 何时进行性能优化为时已晚？

文章推荐： dreamweaver - Visual Basic 与 Dreamweaver CS4

ranking - 投票算法: how to calculate rank?
我正在尝试找出一种计算排名的方法。现在它只需要每个条目的赢/输的比率，所以例如100 次中，有 99 次获胜，则胜率达到 99%。但如果一个参赛作品在 1 票中赢得 1 票，那么它的获胜排名将是 10
Mysql RANK 没有给出每个类别的 RANK
我尝试了以下操作，但它没有对每个类别进行明智的排名。相反，在不考虑类别的情况下对所有记录进行排名。我希望每个类别重新出现排名 select rs.Section,rs.Field1,rs.Field
sql - RANK() OVER PARTITION 并重置 RANK
如何获得在分区更改时重新启动的 RANK？我有这张表: ID Date Value 1 2015-01-01 1 2 2015-01-02 1 1; 关于
sql - 何时选择 rank() 而不是密集的 rank() 或 row_number()
由于我们可以使用 row_number() 获得分配的行号如果我们想使用 dense_rank() 在不跳过分区内的任何数字的情况下找到每一行的排名，我们为什么需要rank()功能，我想不出任何用例
python - 张量形状错误 : Must be rank 2 but is rank 3
我很难搜索可以帮助我构建文本序列(特征)分类器的文档、研究或博客。我拥有的文本序列包含网络日志。我正在使用 TensorFlow 构建 GRU 模型，并将 SVM 作为分类函数。我在处理张量形状时遇
fortran - 错误 : Rank mismatch in argument (rank-1 and scalar)
我遇到了这类错误。 colsys.f:1367.51: 1 NOLD, ALDIF, K, NCOMP, M, MSTAR, 3,DUMM,0)
tensorflow 值错误 : Shape must be rank 1 but is rank 2
import tensorflow as tf x = [[1,2,3],[4,5,6]] y = [0,1] z = [1,2] x = tf.constant(x) y = tf.constant
python - 获取与 SQL rank 不同的 pandas dataframe rank answer
我在学习 SQL 中的排名函数，发现它使用的排名与 pandas 方法不同。如何得到相同的答案？提问链接:https://www.windowfunctions.com/questions/rank
sql - 在 SQL 中使用 RANK() OVER 将 rank 设置为 NULL
在 SQL Server 数据库中，我有一个我对排名感兴趣的值表。当我执行 RANK() OVER (ORDER BY VALUE DESC) 作为 RANK 时，我得到以下结果(在假设表中): R
sql-server - SQL Server : Rank by sum of points and order by ranking
我有一个包含以下字段的游戏 table : ID Name Email Points ---------------------------------- 1 Jo
python - 值错误 : Shape must be rank 2 but is rank 3 for 'MatMul'
我有以下 TensorFlow 代码: layer_1 = tf.add(tf.matmul(tf.cast(x, tf.float32), weights['h1']), biases['b1'])
Python TensorFlow 值错误 : Shape must be rank 1 but is rank 0
我是 Sentdex 教程的神经网络新手。我尝试运行该代码: import tensorflow as tf from tensorflow.examples.tutorials.mnist i
python - tensorflow : ValueError: Shape must be rank 2 but is rank 3
我是 tensorflow 的新手，我正在尝试将双向 LSTM 的一些代码从旧版本的 tensorflow 更新到最新版本 (1.0)，但我收到此错误: Shape must be rank 2 bu
SAS 9.3 Proc Rank 问题(Rank/Sort Road Block)
我正在使用以下格式的数据集: Column 1 (What I Have), Column 2 (What I need to see) 8 1 8 1 8 1 9 2 9
python - 凯拉斯错误 : "BatchNormalization Shape must be rank 1 but is rank 4 for batch_normalization"
我有一个 Keras 函数模型(具有卷积层的神经网络)，它可以很好地与 tensorflow 配合使用。我可以运行它，我可以适应它。但是，使用tensorflow gpu时无法建立模型。这是构建模
c - mpi 中的进程以什么顺序执行...我的意思是排名顺序？例如 : rank==0 first and rank==1 next?
MPI 中的进程以什么顺序执行？我的意思是排名明智的顺序？例如:rank == 0 首先，rank == 1 接下来？我通过在运行时给出以下命令来考虑两个过程: mpirun -np 2 示例。
python - ArithmeticError 导致 cvxpy 出现 "Rank(A) < p or Rank([G; A]) < n"错误
我正在尝试使用 cvxpy(因此使用 cvxopt)在具有 28 个节点和 37 条线路的相对简单的网络中对最佳功率流进行建模，但得到的是“Rank(A) < p or Rank([G; A] ) <
python - tensorflow 错误 : Shape must be rank 0 but is rank 1 for 'cond_1/Switch'
我是 tensorflow 的新手，我正在做一些在线练习以熟悉 tensorflow。我要执行以下任务: Create two tensors x and y of shape 300 from an
python - Tensorflow - 值错误 : Shape must be rank 1 but is rank 0 for 'ParseExample/ParseExample'
我有一个 Ubuntu 对话语料库的 .tfrecords 文件。我正在尝试读取整个数据集，以便我可以将上下文和话语分成几批。使用 tf.parse_single_example 我能够阅读一个示例。
tensorflow - 值错误: Shape must be rank 0 but is rank 1 for 'cond_11/Switch' (op: 'Switch' )
实际上我们不能在 if 语句中使用 tf.var 作为 bool 来代替使用 tf.cond。我为规范化输入数据编写了这段代码，但出现了令人困惑的错误，我哪里做错了？ def global_co

首页

博学

6Ren·AI

商城

google-bigquery - BigQuery 中针对大型数据集的 RANK 或 ROW_NUMBER