apache-spark - Spark 结构化流文件源起始偏移量-6ren

apache-spark - Spark 结构化流文件源起始偏移量

转载作者：行者123 更新时间：2023-12-04 05:14:11

26

4

有没有办法为 Spark 结构化文件流源指定起始偏移量？

我正在尝试从 HDFS 流式传输 Parquet :

spark.sql("SET spark.sql.streaming.schemaInference=true")

spark.readStream
  .parquet("/tmp/streaming/")
  .writeStream
  .option("checkpointLocation", "/tmp/streaming-test/checkpoint")
  .format("parquet")
  .option("path", "/tmp/parquet-sink")
  .trigger(Trigger.ProcessingTime(1.minutes))
  .start()

如我所见，第一次运行是处理在路径中检测到的所有可用文件，然后将偏移量保存到检查点位置并仅处理新文件，即接受年龄并且不存在于所见 map 中的文件中。

我正在寻找一种方法，如何指定起始偏移量或时间戳或选项数量，以便在第一次运行时不处理所有可用文件。

有没有我正在寻找的方法？

最佳答案

感谢@jayfah，据我所知，我们可以使用以下技巧模拟 Kafka 的“最新”起始偏移:

使用 option("latestFirst", true) 和 option("maxFilesPerTrigger", "1") 运行警告流，并带有检查点、虚拟接收器和巨大的处理时间。这样，预热流会将最新的文件时间戳保存到检查点。
使用 option("maxFileAge", "0") 运行真实流，使用相同检查点位置的真实接收器。在这种情况下，流将只处理新可用的文件。

这很可能不是生产所必需的，并且有更好的方法，例如重新组织数据路径等，但至少我发现这种方式可以作为我问题的答案。

关于apache-spark - Spark 结构化流文件源起始偏移量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51391722/

26

4

0

文章推荐： VIM HTML自动缩进不起作用

文章推荐： cryptography - 链在 Rainbow 表中如何工作？

文章推荐： sql-server - 存储过程-天数结束

文章推荐： java - Proguard:保留特定方法的注释

date - Highstock 起始/终止日期无效问题
我在尝试生成具有“价格”轴和“量”轴的图表时遇到问题，类似于 example given 中的图表。在 Highstock 网站上。它可以很好地显示成交量轴，但不能显示价格。在尝试确定问题的原因时，
html -
起始 - HTML
在我的 HTML 项目中，我试图提及标签。但是，VS Code 将其解释为实际的标签，它会导致奇怪的事情发生。有人有办法解决这个问题吗？预先感谢您! 最佳答案使用<代替 . 顺便说一下，使
html -
起始 - HTML
在我的 HTML 项目中，我试图提及标签。但是，VS Code 将其解释为实际的标签，它会导致奇怪的事情发生。有人有办法解决这个问题吗？预先感谢您! 最佳答案使用<代替 . 顺便说一下，使
c++ - 起始 block 存储地址
The allocation function attempts to allocate the requested amount of storage. If it is successful, i
.Net Core API 起始 URL
这是我的Program.cs: public static void Main(string[] args) { var host = new WebHostBuilder()
java - FileNotFoundException 起始 jar - 在资源文件夹中看不到文件
我希望我的应用程序独立于操作系统。因此，我的 config.properties 和日志文件存储在资源文件夹中，我通过相对路径获取这些资源。这是我的项目结构。这是我的 AppConfig 类: pu
cocoa - 使用 AVFoundation/CoreMedia/其他框架检测节拍/起始
(前言:这是我在 Stack Overflow 上提出的第一个与音频相关的问题，因此我会尽力用最好的措辞来表达。欢迎编辑。) 我正在创建一个允许用户循环播放音乐的应用程序。目前，我们的原型(proto
python - 在 scrapy 起始 url 中传递 Dict
我有一个 Pandas DataFrame，我想将其用作 Scrapy Start URL，函数 get_links 打开一个到 DataFrame 的 xlsx，其中有一个我想在其上运行蜘蛛的 Co
java - 使用已定义的根(起始)元素将 DTD 转换为 XSD
我有几个大的 DTD 文件。我用过 trang将它们转换为 XSD 文件，这样我就可以轻松地从 JAXB 和其他实用程序中使用它。但是，生成的 XSD 文件的所有声明元素都位于顶层。这意味着任何元素都
linux - 将文件从给定的 'x'(起始)偏移量复制到给定的 'y'(结束)偏移量的工具
是否有任何工具可以将文件从给定的起始偏移量复制到给定的(结束)偏移量。我还想通过运行 md5sum 确认该工具已正确复制指定的字节。像这样的东西 1) Copy source file star
java - 获取在 Jpanel 上绘制的 Path2D 形状的(起始)X 和 Y 坐标
所以，我有一个程序，我可以使用 Path2D 对象将形状添加到 JPanel，然后我可以单击并拖动它们。我想要做的是能够找到药物后形状的最终 X 和 Y 坐标。坐标必须是左上角坐标。有什么想法吗？ /

首页

博学

6Ren·AI

商城

apache-spark - Spark 结构化流文件源起始偏移量