azure - 是否可以在 Azure databricks 中使用基于 Parquet 文件名的增量表跟踪器？-6ren

azure - 是否可以在 Azure databricks 中使用基于 Parquet 文件名的增量表跟踪器？

转载作者：行者123 更新时间：2023-12-03 07:02:36

35

4

今天在工作时，我看到了一个基于文件名的三角洲湖跟踪器。我所说的增量跟踪器是指定义 parquet 文件是否已被摄取的函数。

代码将检查哪些文件(来自增量表)尚未已被摄取，然后使用以下命令读取增量表中的 Parquet 文件:spark.createDataFrame(路径，StringType())

在使用增量表之后，我认为以这种方式使用增量跟踪器似乎不太合适。

如果记录被删除，增量日志指向新文件的可能性有多大，以及该删除的记录将被解读为新的吗？
如果记录更新，增量日志 不指向新文件以及此更新记录的可能性有多大不会被考虑？
如果增量表上发生一些维护，会发生什么一些新文件突然被写入的可能性？这可能会导致记录被重新摄取

任何观察或建议是否可以这样工作都会很好。谢谢

最佳答案

在 Delta Lake 中，一切都在文件级别上运行。因此不存在“就地”更新或删除。假设一条记录被删除(或更新)，那么大致会发生以下情况:

读入包含相关记录的 Parquet 文件(+文件中恰好存在的其他记录)
将除已删除记录之外的所有记录写入新的 parquet 文件
使用新版本更新事务日志，将旧的 parquet 文件标记为已删除，将新的 parquet 文件标记为添加。请注意，在运行 VACUUM 之前，旧的 Parquet 文件不会被物理删除。命令。

更新过程基本相同。

更具体地回答您的问题:

In case record is deleted, what are the chances that the delta logwould point to a new file , and that this deleted record would be readas a new one?

增量日志将指向一个新文件，但删除的记录不会在其中。将会有原始文件中恰好存在的所有其他记录。

In case record is updated, what would be the chance that delta logwould not point to a new file, and that this updated record would notbe considered ?

文件未就地更新，因此不会发生这种情况。将写入包含更新记录(+原始文件中的任何其他记录)的新文件。事务日志被更新为“指向”这个新文件。

In case some maintenance is happening on the delta table, what are thechances that some new files are written out of nowhere ? Which maycause a record to be re-ingested

这是可能的，尽管不是“凭空而来”。例如，如果您运行 OPTIMIZE现有的 Parquet 文件被重新整理/组合以提高性能。基本上，这意味着将写入许多新的 parquet 文件，并且事务日志中的新版本将指向这些 parquet 文件。如果在此之后您拾取所有新文件，您将重新摄取数据。

一些注意事项:如果您的增量表仅附加，您可以使用 structured streaming改为从中读取。如果没有，则 Databricks 提供 Change Data Feed提供插入、更新和删除的记录级详细信息。

关于azure - 是否可以在 Azure databricks 中使用基于 Parquet 文件名的增量表跟踪器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72088621/

35

4

0

文章推荐： Azure构建管道不起作用: unable to create directory D:\a\1\a\

文章推荐：当变更集失败时，liquibase 不会将脚本添加到历史记录中

文章推荐： linux - 无法使用 CLI 将 Azure Function 发布到 Linux

Java 跟踪器/记录器
我需要跟踪包含数千个 JAR 和 .CLASS 文件的已编译 Java 应用程序，您知道有什么合适的工具可以附加到 JVM 来跟踪函数调用(无需源代码)吗？最佳答案是的。 Jprofiler无需源
python - 如何为自定义类训练 DeepSORT 跟踪器？
我想使用深度学习和计算机视觉技术来检测和统计葡萄园中葡萄藤的数量。我正在使用 YOLOv4 对象检测器并在 darknet 上进行训练框架。我已经能够将 SORT 跟踪器集成到我的应用程序中并且运行良
ios - 如何在用户不移动时自动暂停 GPS 跟踪器
我有一个分为两部分的问题 (1) 如何在用户不移动时暂停事件跟踪，(2) 这可以节省电池生命周期吗？更多信息。我正在构建一个事件跟踪器，但用于通常涉及大量暂停的事件 - 例如。步行30分钟，在一个位
javascript - 在同一页面上使用两个 Google Analytics 跟踪器
我需要能够在一个页面上使用多个 Google Analytics(分析)。我怎样才能用异步代码做到这一点？让跟踪器的工作方式有点像这样(不确定确切的代码): var tracker2 = _gat.
android - 设置 Google Analytics 跟踪器
我正在尝试为我的 Android 应用设置 Google Analytics v2。现在，我正在尝试通过为我的 Activity 和 fragment 设置跟踪器来跟踪不同的屏幕。我有两个所有东西都
python - BitTorrent 跟踪器 API 不错吗？
您知道有哪些易于使用、简洁的 Python 或 Perl API 可以与 BitTorrent Tracker 进行交互吗？例如，我获取一个 torrent 文件，枚举文件中的所有跟踪器，并向跟踪器询
php - Serp 跟踪器 PHP 脚本
我一直在尝试为 SEO 编写自己的关键字位置排名扫描器。我找到了一个 PHP 类，它看起来很有用，但我不知道如何让它工作。我对在 PHP 中使用类/函数还很陌生。这是我找到的代码: http://
c++ - 丢失目标时如何重置或更新 KCF 跟踪器 ROI
我正在使用 KCF 跟踪算法，我的问题是当目标退出窗口时，跟踪器不会重置并错误地在窗口边缘显示它的矩形。在理想状态下，跟踪器应该在失去目标时删除矩形。这些是我的代码: int main(int ar
database - 跟踪器/类似种子服务的最佳 dbms 是什么？
我正在开发一项服务，用于跟踪互联网上的节点。该服务将按日期时间对节点列表进行排序，并且数据库不需要在崩溃中幸存下来(http://wiki.postgresql.org/wiki/What%27s_n
java - 如何在 Spark 中实现自定义作业监听器/跟踪器？
我有一个如下所示的类，当我通过命令行运行它时，我想查看进度状态。类似的东西， 10% completed... 30% completed... 100% completed...Job done!
Angular 2 - 找不到 404 跟踪器
我已经按照入门指南进行了一些扩展，以了解之前的 Angular 2 版本。我已经更新了我的修订版并相应地更改了所有内容。当我运行 Web 服务器时，我现在收到 traceur 错误 404... 这是
gprs - 与服务器通信 GPS/GPRS/GSM 跟踪器
我正在开发一个使用 GPS/GPRS/GSM 的车辆跟踪系统。我目前使用的追踪设备是 GV100，这是一款来自 Quectel ([www.quectel.com][1]) 的 GPS/GPRS/GS
angular2 rc4“XHR错误(404未找到)加载/跟踪器
我将 angular2 从 RC2 迁移到 RC4，现在收到以下错误: localhost/:36 Error: Error: XHR error (404 Not Found) loading ht
node.js - 连接到 torrent 跟踪器/对等点
我目前正在尝试在 nodeJS 中实现一个最小的 torrent 客户端。我正在阅读此规范:https://wiki.theory.org/index.php/BitTorrentSpecifica
python - 在 python 中使用边界框更新 OpenCV 跟踪器
我正在使用 OpenCV 跟踪器在视频中执行人脸跟踪，每隔几帧使用人脸检测器。如果人脸检测器检测到人脸，我想用“检测到的”边界框更新跟踪器。我看到在 C++ 实现中有一个输入 Rect 的选项，但由于
php - Mantis Bug 跟踪器 API 集成？
我刚刚安装了 Mantis 错误跟踪器以与 Eclipse IDE 一起使用，并且已经开始发现它的优点。真的很棒。由于 Eclipse 通过 PHP soap API 与 Mantis 通信，我想知
javascript - 同一用户在同一天拥有多个 IP，并使用 Analytics JavaScript 跟踪器
使用 Google Analytics 的 Javascript 跟踪器，如果有人访问 IP #1 的网站，1 小时后(同一天)使用另一个 IP #2(但在同一浏览器中)访问网站，是否算作 1 或2
mysql - 打开 gps 跟踪器 git 项目 openshift
很抱歉打扰您，但我已经为此苦苦挣扎了近两周，并进行了很多研究，但没有找到任何解决方案: 我正在尝试运行这个 git 项目 open gps tracker ，在本地它运行完美，但是当我将它部署到开放
javascript - 将 asp net 项目连接到 MantisBT 跟踪器
我有一个 asp net 项目，我必须在登录后向 Mantis 跟踪器添加一些问题。最好的方法是什么？ JS 还是 C#？我找到了几个库(例如 Mantis-JS)，但我发现没有文档，我不明白我应该做
java - 如何在 Java 中抓取 udp BitTorrent 跟踪器？
我发送了一个抓取数据包，播种器、下载器和盗取器总是返回 0。这是我的初始连接和抓取代码。 public void scrape() { for (final String infoh

首页

博学

6Ren·AI

商城

azure - 是否可以在 Azure databricks 中使用基于 Parquet 文件名的增量表跟踪器？