- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个写入 hdfs(parquet 文件)的 spark 进程。我的猜测是,默认情况下,如果 spark 出现故障并重试,它可能会写入一些文件两次(我错了吗?)。
但是,我应该怎么做才能在 hdfs 输出上获得幂等性呢?
我看到 2 种情况应该被不同地质疑(但如果你知道更好,请纠正我或开发它):
最佳答案
我认为这取决于您在工作中使用哪种提交者以及该提交者是否能够撤消失败的工作。例如当您使用 Apache Parquet 格式的输出时,Spark 期望提交者 Parquet 是 ParquetOutputCommitter
的子类。如果您使用此提交程序 DirectParquetOutputCommitter
来附加数据,则它无法撤消该作业。 code
如果您使用 ParquetOutputCommitter
本身,您可以 see它扩展了 FileOutputCommitter
并略微覆盖了 commitJob(JobContext jobContext)
方法。
以下内容是从Hadoop: The Definitive Guide复制/粘贴的
OutputCommitter API:setupJob() 方法在作业运行之前调用,通常用于执行初始化。对于 FileOutputCommitter
,该方法创建最终输出目录,${mapreduce.output.fileoutputformat.outputdir}
,以及一个临时工作空间对于任务输出,_temporary 作为其下的子目录。如果作业成功,则调用 commitJob() 方法,这在默认的基于文件的实现删除临时工作空间并创建一个隐藏的空标记输出目录中名为 _SUCCESS 的文件向文件系统客户端指示该作业顺利完成。如果作业没有成功,则使用状态对象调用 abortJob()指示作业是失败还是被杀死(例如,被用户杀死)。在默认情况下实现,这将删除作业的临时工作空间。
任务级别的操作类似。 setupTask() 方法在任务已运行,默认实现不执行任何操作,因为临时在写入任务输出时创建以任务输出命名的目录。
任务的提交阶段是可选的,可以通过返回 false 来禁用需要任务提交()。这使框架不必运行分布式提交任务的协议(protocol),commitTask()
和 abortTask()
都不会被调用。FileOutputCommitter
将在没有输出被写入时跳过提交阶段任务。
如果任务成功,调用 commitTask()
,在默认实现中移动临时任务输出目录(名称中有任务尝试 ID 以避免任务尝试之间的冲突)到最终输出路径,${mapreduce.output.fileoutputformat.outputdir}
。否则,框架调用abortTask()
,删除临时任务输出目录。
该框架确保在针对特定任务进行多次任务尝试时,只有一个会被提交;其他的将被中止。出现这种情况可能是因为第一次尝试由于某种原因失败了——在这种情况下,它会被中止,然后,成功的尝试将被提交。如果两次任务尝试都可能发生作为推测重复同时运行;在这种情况下,第一个完成的将被提交,另一个将被中止。
关于apache-spark - 将spark数据集写入hdfs时如何保证幂等?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59987368/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a softwar
有没有办法保证您的系统托盘图标被删除? 添加系统托盘图标: Shell_NotifyIcon(NIM_ADD, &m_tnd); 删除系统托盘图标: Shell_NotifyIcon(NIM_DELE
是否保证(-x) % m,其中x和m在c++中为正standard (c++0x) 为负数,等于 -(x % m)? 我知道它在我知道的所有机器上都是正确的。 最佳答案 除了Luchian的回答,这是
可能还有其他方法可以作为示例,但这不是我要问的重点。 我正在这样做: (future (clojure.java.shell/sh "sleep" "3" :dir "/tmp")) 启动对Shell
可以使用 XREAD(或者可能是另一个命令)以原子方式检测数据是否写入 Redis 流? 进一步来说: 假设您在一个进程中将一些数据添加到 Redis 流中,并看到数据已通过某个自动生成的 key 成
Kotlin 协程是否提供任何“发生之前”保证? 例如,在这种情况下,写入 mutableVar 和随后在(可能)其他线程上读取之间是否存在“发生之前”保证: suspend fun doSometh
我正在开发一个跟踪行程的应用程序。在搜索了这件事之后,我得出结论,实现这一点(持续跟踪用户的位置)的最好方法是使用前台服务。在某些情况下工作得很好,但在其他一些情况下(即使关闭 DOZE),我得到一些
我正在使用 ORM (sqlalchemy) 从 PG 数据库中获取数据。我想避免在我手工编写的 SQL 语句中指定所有表列名称*。 到目前为止,我的假设是返回的列按照用于创建数据库表的 DDL 语句
在 setState 的文档中这样说: setState() does not immediately mutate this.state but creates a pending state tr
我有一个与不同硬件接口(interface)的简单应用程序。对于每个硬件,我针对一个独特的监视器函数生成了一个 pthread_t,总共有 6 个线程:1 个管理线程和 5 个工作线程。 每个线程都有
目前,我有 private ThreadLocal shortDateFormat = new ThreadLocal() { @Override protected DateFormat i
我有一个使用 SolrCloud 将文档写入 Solr 的 Java 作业。输入数据被转换为不同实体的映射,然后将每个实体写入与其实体类型对应的 Solr 集合。 我的代码如下: public voi
我们使用嵌入式设备通过串行到以太网转换器将数据包从串行端口发送到服务器。我们使用的一家制造商 Moxa 将始终以与构建它们相同的方式发送数据包。意思是,如果我们构建一个大小为 255 的数据包,它将始
我是从 C++ 转到 Java 的。在 C++ 世界中,我们关注异常安全,并注意到变元器可以在变元器本身或其委托(delegate)的方法抛出异常时提供不同的保证(最小、强、不抛出)。实现具有强异常保
我想将来自 SAAJ 的 SOAPConnectionFactory 和 MessageFactory 类与多个线程一起使用,但事实证明我不能假设它们是线程安全的。一些相关的帖子: javax.xml
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 5 年前。 Improve
关于正确性,我找不到以下代码片段没有设计缺陷的证据/反证据。 template class MyDirtyPool { public: template std::size_t ad
对于这个问题,我找到了不同的答案,我知道一定有一个确定的答案。 C 中四种主要数据类型的最小分配内存大小是多少? int , double , float , 和 char是我在想什么。做 signe
我正在使用 Kafka Producer,我的应用程序将具有相同键的各个 ProducerRecords 发送到单个分区中,然后这些 ProducerRecords 在发送到代理之前进行批处理(使用
您好,我是服务器端编程 (java) 的新手,正在阅读 SendRedirect 与 Forward 之间的区别。来自 Post-redirect-get pattern它解释说这将阻止通过点击刷新按
我是一名优秀的程序员,十分优秀!