- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我问这个问题听起来可能很天真,但这是我最近在项目中遇到的一个问题。需要对此有更好的了解。
df.persist(StorageLevel.MEMORY_AND_DISK)
每当我们在 HBase 读取上使用这种持久化时 - 相同的数据会一次又一次地返回给流作业的其他后续批处理,但 HBase 会为每个批处理运行更新。
HBase读取代码:
val df = sqlContext.read.options(Map(HBaseTableCatalog.tableCatalog -> schema)).format(dbSetup.dbClass).load().persist(StorageLevel.MEMORY_AND_DISK)
我用 cache()
替换了 persist(StorageLevel.MEMORY_AND_DISK)
并且它按预期从 HBase 表返回更新的记录。
我们尝试使用 persist(StorageLevel.MEMORY_AND_DISK)
的原因是为了确保内存中的存储空间不会变满,并且我们不会在执行过程中重新进行所有转换特定流的。
Spark 版本 - 1.6.3HBase 版本 - 1.1.2.2.6.4.42-1
有人可以向我解释一下并帮助我更好地理解吗?
最佳答案
正如您提到的,您正在寻找一个“为什么”的原因,因此我要回答这个问题,否则这个问题将仍然没有答案,因为现在没有合理的理由运行 spark 1.6.3 来感知特定 HBASE 版本会发生什么.
在内部,当您使用 cache() 时,spark 会调用 persist() 并且它在 RDD 上的行为与在数据集(或数据帧)上的行为不同。在 RDD 上,它使用 MEMORY_ONLY,在数据集上使用 MEMORY_AND_DISK。我看不到你(完全)编码的内容,但总的来说,我可以说,你不应该面对缓存和持久化这两种方式之间的区别,你的问题只是一个顺便说一句,版本不兼容,或者仅仅是 Apache 未修复的错误。
有几个地方要检查看看哪里出了问题
在此链接中https://spark.apache.org/releases/spark-release-1-6-3.html你会发现代码的维护在分支 1.6 中进行,所以这是找到代码的地方 https://github.com/apache/spark/blob/branch-1.6/core/src/main/scala/org/apache/spark/CacheManager.scala
希望对您有所帮助。
关于apache-spark - 为什么 persist(StorageLevel.MEMORY_AND_DISK) 给出与 HBase 的 cache() 不同的结果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52032904/
在 Spring-MVC 应用程序中,我尝试使用 validator 。我将注释 @NotEmpty 和 @Email 放在我的实体之一上,当我尝试验证它时,出现此错误: java.lang.NoSu
网络是我硕士学位的最后一门类(class)。我确实有一个关于如何计算非持久、持久和持久流水线的 http 往返时间的问题。 在花了无数小时阅读有关该问题、从其他大学下载笔记甚至搜索 youtube 视
让我们考虑典型的 订购 和 订单商品 例子。假设 订单商品 是 的一部分订购 聚合,只能通过订单添加。所以,添加一个新的 订单商品 到 订购,我们必须通过 Repository 加载整个 Aggreg
// lookup existing user & set a currently null child entity (ContactInfo) user.setContactInfo(contac
我正在尝试关注 this tutorial .我想我不是从使用可下载项目开始,而是从我之前做过的一个简单的“spring MVC - Maven - eclipse”项目开始。这个项目运行良好。 因此
我正在使用打开 Kubernetes 选项的 docker 应用程序运行 mac OSX Catalina。我使用以下 yaml 和命令创建了一个 PersistentVolume。 apiVersi
假设我有一个类 Employee和一个类Company其中包含 Employee 的 LinkedList对象,我想编写一个添加 Employee 的方法到特定的数据库Company 。我创建了一个新
我实际上正在将我们应用程序的所有组件更新到最新版本。因此,除其他外,我将从 eclipselink-2.5.0 升级到 eclipselink-2.7.3,并从 Tomcat 7 升级到 TomEE。
我试图遵循《用GlassFish 3开始Java EE 6平台》一书第2章中的示例。我正在Windows中使用cmd中的EclipseLink,Derby和Maven。我真的不知道这一点,将不胜感激!
我只是看看ClassGuard (虽然我知道一些 objection )。 但是我得到了 javax.persistence.PersistenceException: [PersistenceUni
我的印象是,如果我们使用持久字段,就不需要 getter 方法,因为实体管理器直接引用实例变量。但是,当我从实体中删除 getter 和 setter 方法以具有持久字段时,未从数据库中检索到相应实例
我正在 Eclipse 中使用 Servlet、JPA、EJB 和 JBoss 进行项目。正如您在我的主题标题中看到的,我的 persistence.xml 文件有错误,但我不知道是哪个:
我已经尝试了一个星期或更长时间来让我的状态在 react native Android 应用程序中持续存在,但在重新水化后状态始终具有初始值。如果我使用 Redux devtools 检查 ASync
什么时候应该坚持,什么时候应该补充水分?命名约定非常困惑,因为作者几乎没有提到它们在 redux-persist 的上下文中的含义。 . 最佳答案 在不真正了解图书馆的情况下: persist = 将
我正在尝试按照老师文档中提供的信息设置一个简单的 jpa 2.0 项目。我已经处理这个问题好几个小时了,但无论我做什么,当我尝试创建 EntityManagerFactory 时,我总是遇到这个异常:
我有一个 Maven 项目,我将其转换为现在可与 Maven 一起使用的 JPA 项目。我的persistence.xml如下: My Persistence Unit
我正在使用 Netbeans 6.8 并构建简单的 Maven Web 应用程序项目。 为持久实体创建实体和主文件 [也创建持久单元] 并使用 EclipsLink。 但是当我运行主文件时出现这个错误
我是 Kubernetes 的新手,我很难理解 Kubernetes 中持久存储背后的整个想法。 这就足够了吗,或者我必须创建持久卷,如果我只部署这两个对象而不创建 PV 会发生什么情况? 存储应该在
我正在尝试使用 JPA 为我目前参与的 Java-EE 项目设置持久性,并且我遇到了许多配置问题。目前,我已经在 persistence.xml 中定义了一个 RESOURCE_LOCAL 持久性单元
Akka 持久性查询通过提供一个通用的基于异步流的查询接口(interface)来补充 Persistence,各种日志插件可以实现该接口(interface)以公开它们的查询功能。 这是来自 akk
我是一名优秀的程序员,十分优秀!