gpt4 book ai didi

apache-spark - 使用 Spark Structured Streaming 处理后删除文件

转载 作者:行者123 更新时间:2023-12-04 12:39:41 24 4
gpt4 key购买 nike

我正在使用 file source in Spark Structures Streaming并想在处理完文件后删除它们。

我正在读取一个充满 JSON 文件( 1.json2.json 等)的目录,然后将它们写为 Parquet 文件。我想在成功处理每个文件后删除它。

最佳答案

编辑 2 :将我的 go 脚本更改为读取源代码。 new script

编辑 : 目前正在尝试这个,它可能会在处理文件之前删除文件。目前正在寻找更好的解决方案并研究此方法。

我通过创建 a Go script 暂时解决了这个问题.它将扫描我在 Spark 中设置的 checkpoints 文件夹并处理其中的文件以找出哪些文件已经从 Spark 中写出。如果它们存在,它将删除它们。它每 10 秒执行一次。

但是,它依赖于 Spark 的检查点文件结构和表示 (JSON),该文件没有记录并且可能随时更改。我也没有查看 Spark 源代码来查看我正在阅读的文件( checkpoint/sources/0/... )是否是已处理文件的真实来源。不过似乎可以在 ATM 上工作!此时比手动执行要好。

关于apache-spark - 使用 Spark Structured Streaming 处理后删除文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43671757/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com