gpt4 book ai didi

apache-spark - 在 Spark Streaming 中如何处理旧数据和删除已处理的数据

转载 作者:行者123 更新时间:2023-12-04 03:07:38 25 4
gpt4 key购买 nike

我们正在运行一个从目录中检索文件的 Spark 流作业(使用 textFileStream)。我们担心的一个问题是作业停止但文件仍在添加到目录中的情况。一旦作业再次启动,这些文件不会被拾取(因为它们不是新的或在作业运行时更改)但我们希望它们被处理。

1) 有解决方案吗?有没有办法跟踪哪些文件已被处理,我们可以“强制”拾取旧文件吗?

2) 有没有办法删除处理过的文件?

最佳答案

下面的文章几乎涵盖了您的所有问题。

https://blog.yanchen.ca/2016/06/28/fileinputdstream-in-spark-streaming/

1) 是否有解决方案?有没有办法跟踪哪些文件已被处理,我们能否“强制”提取较旧的文件?

流阅读器在启 Action 业/应用程序时使用系统时钟启动批处理窗口。显然之前创建的所有文件都将被忽略。尝试启用检查点

2)有没有办法删除处理过的文件?

删除文件可能是不必要的。如果检查点有效,未处理的文件将由 Spark 识别。如果由于某种原因要删除文件,请实现自定义输入格式和阅读器(请参阅文章)以捕获文件名并酌情使用此信息。但我不推荐这种方法。

关于apache-spark - 在 Spark Streaming 中如何处理旧数据和删除已处理的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47677772/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com