- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我目前正在尝试将自定义 InputSplit
和 RecordReader
与 Apache Spark 的 SparkContext
hadoopRDD()
函数结合使用。
我的问题如下:
InpuSplit.getLenght()
和/或 RecordReader.getProgress()
返回的值是否会影响 map()
的执行Spark Runtime 中的函数?
我问是因为我在 Apache Hadoop 上使用了这两个自定义类,它们按预期工作。但是,在 Spark 中,我看到在运行时生成了新的 InputSplit
对象,这是我不希望我的代码执行的操作。更准确地说:
在执行开始时,我在我的日志文件中看到生成了正确数量的 InputSplit
对象(在本例中我们假设只有 1 个)。反过来,生成与该拆分关联的 RecordReader
对象并开始获取记录。在某些时候,我收到一条消息,指出正在处理之前的 InputSplit
的 Job 停止,并且使用新的 InputSplit
生成了一个新的 Job。我不明白为什么会这样?是否与RecordReader.getProgress()
方法或InputSplit.getLength()
方法返回的值有关?
此外,我将 InputSplit 的长度定义为任意大字节数(即 1GB)。此值是否会影响在运行时生成的 Spark 作业数?
欢迎任何帮助和/或建议?
谢谢,尼克
P.S.-1:对于发布这么多问题,我深表歉意,但 Apache Spark 是一个新工具,几乎没有关于通过 HadoopRDD
s 集成 Hadoop-Spark 的文档。
P.S.-2:如果需要,我可以提供更多技术细节。
最佳答案
是的,如果从 getLength() 返回任何值,那么在读取这些值后,否。文件中的字节数,hadoop 将生成一个新的拆分以读取更多数据。如果您不希望出现此行为,请覆盖方法 InputFormat.getSplits() 以返回 false。即 .. 你不希望它 split 。
getProgress() 方法与生成新拆分无关。
关于java - Spark 与 Hadoop 集成 InputFormat 混淆,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24815431/
我真的很困惑。我已经尝试使用带有 tomcat 的 Jax-rs 并使用所有注释,我能够使用 url 调用我的服务。因此,如果没有 Jax-rs,我可以简单地拥有一个 servlet 并调用我的服务。
是否有任何工具/商业混淆器可以混淆 WPF 控件中的 BAML 资源? 如果没有,就 IP 保护而言,这是一段艰难的时期,因为黑客可以通过使用 BAML 到 XAML 转换器轻松查看 BAML 资源。
嘿大家。我在尝试使用 COBOL 在 zOS 环境中解决的编码项目中遇到了一些麻烦。我需要读入一个文件并将它们放入索引表中(我知道将少于 90 条记录)。 让我感到困扰的是,我们受到项目参数的约束,以
我试图按照这个例子来理解 join() 方法: class PrintDemo { public void printCount() { try { for(int
当我编译我正在编写的代码,然后在 JD Gui 中查看时,方法显示带有如下标题: public void growSurface(Random paramRandom, int paramInt1,
我正在为重新分发准备 Android 库,它的代码必须进行混淆处理。我已经阅读了有关此主题的一些内容,并且决定使用 Android Library Project。它将作为 jar 分发(自动在/bi
两个混淆相关的问题: 1) 是否有任何工具可以将 F# 从 MSIL 目标形式反汇编回其源形式或接近它的形式?这不是通过默默无闻来实现安全性的尝试,但我想保护某些源代码免遭“盗窃”。 2) 我简要地查
谁能向我解释为什么 simulatedCase <- rbinom(100,1,0.5) simDf <- data.frame(CASE = simulatedCase) posterior_m0
我一直无法找到关于使用 AppDomains 时发生的事情的非常清楚的描述,所以希望有人能够启发我。我有一个简单的测试程序(基本上是扯掉了 MSDN example ): using System;
假设我有 2 个分支topic和 master如果我在 topic分支,然后运行 git rebase master它是 rebase master 还是 rebase 主题分支? 做 git r
我有一个类(class): public class LockTest { public void LockThis() { lock (this)
我正在尝试最小化/混淆我的 Angular 代码,但遇到了问题。我在这里阅读“缩小说明”http://docs.angularjs.org/tutorial/step_05但我定义我的 Control
我遇到了一些困惑的操作。 var a = 0.1; var b = 0.2; var c = 0.3; console.log(a); // 0.1 console.log(b); // 0.2 co
感谢您查看我的帖子 - 我正在尝试弄清楚如何在单击链接时关闭此下拉菜单,但我的 JavaScript 技能非常缺乏,而且代码似乎很困惑。这是 HTML:
混淆、哈希和加密之间有什么区别? 这是我的理解: 哈希是一种单向算法;无法逆转 混淆与加密类似,但不需要任何“ secret ”即可理解(ROT13 就是一个例子) 加密是可逆的,但需要“ secre
我有以下代码 my $content = $response->content; $content =~ /username=([\s\S]+?)&/; my $username = $1; prin
我在 .NET 中发现了一些与我预期的有点不同的东西。我粘贴的代码没有意义,但它是我拥有的一个复杂得多的函数的浓缩版。我实际上是在获取匿名类型信息作为参数(尚未创建匿名类型的实例),我需要创建该类型的
我正在努力解决 JavaFX 应用程序的混淆问题。使用此项目作为基础: https://github.com/openjfx/samples/tree/master/IDE/IntelliJ/Non-
是否可以制作一个与此类似的 CSV 阅读器 while((line = reader.readLine()) != null){ String[] values = line.
公共(public)类测试2 { 公共(public)静态无效主(字符串[]参数){ System.out.println("3 + 6"); System.out.println(3
我是一名优秀的程序员,十分优秀!