- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个数据集,用于摄取对我的数据行的最新编辑,但它只摄取最近编辑过的版本。 (即它是在 update_ts
时间戳列上递增的)。
原表:
| primary_key | update_ts |
|-------------|-----------|
| key_1 | 0 |
| key_2 | 0 |
| key_3 | 0 |
表更新时:
| primary_key | update_ts |
|-------------|-----------|
| key_1 | 0 |
| key_2 | 0 |
| key_3 | 0 |
| key_1 | 1 |
| key_2 | 1 |
| key_1 | 2 |
摄取后,我需要计算所有先前更新的“最新版本”,同时还要考虑任何新的编辑。
| primary_key | update_ts |
|-------------|-----------|
| key_1 | 0 |
| key_2 | 0 |
| key_3 | 0 |
交易 n=2(追加):
| primary_key | update_ts |
|-------------|-----------|
| key_1 | 1 |
| key_2 | 1 |
我怎样才能使这个“最新版本”的计算速度更快?
最佳答案
这是将受益于 bucketing 的常见模式.
其要点是:根据您的 primary_key
将您的输出 SNAPSHOT 写入存储桶中。列,其中完全跳过了对大得多的输出进行改组的昂贵步骤。
这意味着您只需将新数据交换到已经包含您之前历史记录的存储桶。
让我们从初始状态开始,我们在先前计算的“最新”版本上运行,该版本是一个慢速 SNAPSHOT:
- output: raw_dataset
input: external_jdbc_system
hive_partitioning: none
bucketing: none
transactions:
- SNAPSHOT
- APPEND
- APPEND
- output: clean_dataset
input: raw_dataset
hive_partitioning: none
bucketing: none
transactions:
- SNAPSHOT
- SNAPSHOT
- SNAPSHOT
如果我们写出
clean_dataset
在
primary_key
上使用分桶列到单独计算的桶数中以适应我们预期的数据规模,我们需要以下代码:
from transforms.api import transform, Input, Output
import pyspark.sql.functions as F
from pyspark.sql.functions import row_number
from pyspark.sql.window import Window
@transform(
my_output=Output("/datasets/clean_dataset"),
my_input=Input("/datasets/raw_dataset")
)
def my_compute_function(my_input, my_output):
BUCKET_COUNT = 600
PRIMARY_KEY = "primary_key"
ORDER_COL = "update_ts"
updated_keys = my_input.dataframe("added")
last_written = my_output.dataframe("current")
updated_keys.repartition(BUCKET_COUNT, PRIMARY_KEY)
value_cols = [x for x in last_written.columns if x != PRIMARY_KEY]
updated_keys = updated_keys.select(
PRIMARY_KEY,
*[F.col(x).alias("updated_keys_" + x) for x in value_cols]
)
last_written = last_written.select(
PRIMARY_KEY,
*[F.col(x).alias("last_written_" + x) for x in value_cols]
)
all_rows = updated_keys.join(last_written, PRIMARY_KEY, "fullouter")
latest_df = all_rows.select(
PRIMARY_KEY,
*[F.coalesce(
F.col("updated_keys_" + x),
F.col("last_written_" + x)
).alias(x) for x in value_cols]
)
my_output.set_mode("replace")
return my_output.write_dataframe(
latest_df,
bucket_cols=PRIMARY_KEY,
bucket_count=BUCKET_COUNT,
sort_by=ORDER_COL
)
当它运行时,您会在查询计划中注意到输出的项目步骤不再包括交换,这意味着它不会对数据进行混洗。您现在将看到的唯一交换是在输入上,它需要以与格式化输出完全相同的方式分发更改(这是一个非常快的操作)。
fullouter
中。加入步骤,然后加入将利用这一点并非常快速地运行 600 个任务。最后,我们通过在与以前相同的列上显式地分桶到相同数量的桶中来维护输出的格式。
BUCKET_COUNT
值)。
- output: raw_dataset
input: external_jdbc_system
hive_partitioning: none
bucketing: none
transactions:
- SNAPSHOT
- APPEND
- APPEND
- output: clean_dataset
input: raw_dataset
hive_partitioning: none
bucketing: BUCKET_COUNT by PRIMARY_KEY
transactions:
- SNAPSHOT
- SNAPSHOT
- SNAPSHOT
关于apache-spark - 如何更快地计算我的 Foundry 'latest version' 数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64448980/
初学者 android 问题。好的,我已经成功写入文件。例如。 //获取文件名 String filename = getResources().getString(R.string.filename
我已经将相同的图像保存到/data/data/mypackage/img/中,现在我想显示这个全屏,我曾尝试使用 ACTION_VIEW 来显示 android 标准程序,但它不是从/data/dat
我正在使用Xcode 9,Swift 4。 我正在尝试使用以下代码从URL在ImageView中显示图像: func getImageFromUrl(sourceUrl: String) -> UII
我的 Ubuntu 安装 genymotion 有问题。主要是我无法调试我的数据库,因为通过 eclipse 中的 DBMS 和 shell 中的 adb 我无法查看/data/文件夹的内容。没有显示
我正在尝试用 PHP 发布一些 JSON 数据。但是出了点问题。 这是我的 html -- {% for x in sets %}
我观察到两种方法的结果不同。为什么是这样?我知道 lm 上发生了什么,但无法弄清楚 tslm 上发生了什么。 > library(forecast) > set.seed(2) > tts lm(t
我不确定为什么会这样!我有一个由 spring data elasticsearch 和 spring data jpa 使用的类,但是当我尝试运行我的应用程序时出现错误。 Error creatin
在 this vega 图表,如果我下载并转换 flare-dependencies.json使用以下 jq 到 csv命令, jq -r '(map(keys) | add | unique) as
我正在提交一个项目,我必须在其中创建一个带有表的 mysql 数据库。一切都在我这边进行,所以我只想检查如何将我所有的压缩文件发送给使用不同计算机的人。基本上,我如何为另一台计算机创建我的数据库文件,
我有一个应用程序可以将文本文件写入内部存储。我想仔细看看我的电脑。 我运行了 Toast.makeText 来显示路径,它说:/数据/数据/我的包 但是当我转到 Android Studio 的 An
我喜欢使用 Genymotion 模拟器以如此出色的速度加载 Android。它有非常好的速度,但仍然有一些不稳定的性能。 如何从 Eclipse 中的文件资源管理器访问 Genymotion 模拟器
我需要更改 Silverlight 中文本框的格式。数据通过 MVVM 绑定(bind)。 例如,有一个 int 属性,我将 1 添加到 setter 中的值并调用 OnPropertyChanged
我想向 Youtube Data API 提出请求,但我不需要访问任何用户信息。我只想浏览公共(public)视频并根据搜索词显示视频。 我可以在未经授权的情况下这样做吗? 最佳答案 YouTube
我已经设置了一个 Twilio 应用程序,我想向人们发送更新,但我不想回复单个文本。我只是想让他们在有问题时打电话。我一切正常,但我想在发送文本时显示传入文本,以确保我不会错过任何问题。我正在使用 p
我有一个带有表单的网站(目前它是纯 HTML,但我们正在切换到 JQuery)。流程是这样的: 接受用户的输入 --- 5 个整数 通过 REST 调用网络服务 在服务器端运行一些计算...并生成一个
假设我们有一个名为 configuration.js 的文件,当我们查看内部时,我们会看到: 'use strict'; var profile = { "project": "%Projec
这部分是对 Previous Question 的扩展我的: 我现在可以从我的 CI Controller 成功返回 JSON 数据,它返回: {"results":[{"id":"1","Sourc
有什么有效的方法可以删除 ios 中 CBL 的所有文档存储?我对此有疑问,或者,如果有人知道如何从本质上使该应用程序像刚刚安装一样,那也会非常有帮助。我们正在努力确保我们的注销实际上将应用程序设置为
我有一个 Rails 应用程序,它与其他 Rails 应用程序通信以进行数据插入。我使用 jQuery $.post 方法进行数据插入。对于插入,我的其他 Rails 应用程序显示 200 OK。但在
我正在为服务于发布请求的 API 调用运行单元测试。我正在传递请求正文,并且必须将响应作为帐户数据返回。但我只收到断言错误 注意:数据是从 Azure 中获取的 spec.js const accou
我是一名优秀的程序员,十分优秀!