- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Databricks 中的 Delta 表,该表由 Year
列分区,并且表中有一个时间戳列。我想优化查询以获取特定时间戳范围内的数据(例如,2019 年 1 月 21 日至 2019 年 12 月 4 日之间)。
df_filtered = df.filter((df.timestamp >= "2019-01-21") & (df.timestamp <= "2019-12-04"))
我知道分区可以帮助提高性能,但我不确定在基于时间戳范围进行查询时如何有效地利用它。尽管我没有直接查询 Year
分区列,但我想利用分区修剪来仅读取相关分区。
如何确保Year
分区列与时间戳数据有效关联,以便分区修剪最适合时间戳范围查询?
最佳答案
Delta Table batch reads and writes 的文档提及:
Delta Lake may be able to generate partition filters for a query whenever a partition column is defined by one of the following expressions:
- YEAR(col) and the type of col is TIMESTAMP.
- (...)
这意味着如果您有一个表定义为:
CREATE TABLE a_table (
timestamp TIMESTAMP,
year INT GENERATED ALWAYS AS year(timestamp),
[other columns]
) PARTITIONED BY (year);
然后 Databricks 将能够分析 timestamp
列上的过滤条件,并导出 year
的适当分区过滤器。以你的例子:
df = spark.table("a_table")
df_filtered = df.filter((df.timestamp >= "2019-01-21") & (df.timestamp <= "2019-12-04"))
它将添加分区过滤器year = 2019
。
关于azure - 优化时间戳范围查询的 Delta Lake 分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/77134384/
给定一个带有多个 date_time 戳的字符串,我想 提取第一个戳及其前面的文本 候选字符串可以有一个或多个时间戳 后续的 date_time 戳记将被 sep="-" 隔开 后续date_time
是否可以合并从相机拍摄的文本和照片?我想在照片上标记日期和时间,但我在 Google 上找不到任何内容。 最佳答案 使用下面的代码来实现你所需要的。 Bitmap src = Bitm
有没有办法通过 Graph API 戳另一个用户?基于this post ,并使用 Graph Explorer ,我发布到“/USERID/pokes”,我已经授予它(Graph API 应用程序和
我有两个向左浮动的元素。一个是 body 的第一个 child ,另一个是容器的第一个 child ,容器是 body 的第二个 child 。 ...
我是一名优秀的程序员,十分优秀!