apache-spark - 为什么 persist(StorageLevel.MEMORY_AND_DISK) 给出与 HBase 的 cache() 不同的结果？-6ren

apache-spark - 为什么 persist(StorageLevel.MEMORY_AND_DISK) 给出与 HBase 的 cache() 不同的结果？

转载作者：行者123 更新时间：2023-12-05 07:30:57

24

4

我问这个问题听起来可能很天真，但这是我最近在项目中遇到的一个问题。需要对此有更好的了解。

df.persist(StorageLevel.MEMORY_AND_DISK)

每当我们在 HBase 读取上使用这种持久化时 - 相同的数据会一次又一次地返回给流作业的其他后续批处理，但 HBase 会为每个批处理运行更新。

HBase读取代码:

val df = sqlContext.read.options(Map(HBaseTableCatalog.tableCatalog -> schema)).format(dbSetup.dbClass).load().persist(StorageLevel.MEMORY_AND_DISK)

我用 cache() 替换了 persist(StorageLevel.MEMORY_AND_DISK) 并且它按预期从 HBase 表返回更新的记录。

我们尝试使用 persist(StorageLevel.MEMORY_AND_DISK) 的原因是为了确保内存中的存储空间不会变满，并且我们不会在执行过程中重新进行所有转换特定流的。

Spark 版本 - 1.6.3HBase 版本 - 1.1.2.2.6.4.42-1

有人可以向我解释一下并帮助我更好地理解吗？

最佳答案

正如您提到的，您正在寻找一个“为什么”的原因，因此我要回答这个问题，否则这个问题将仍然没有答案，因为现在没有合理的理由运行 spark 1.6.3 来感知特定 HBASE 版本会发生什么.

在内部，当您使用 cache() 时，spark 会调用 persist() 并且它在 RDD 上的行为与在数据集(或数据帧)上的行为不同。在 RDD 上，它使用 MEMORY_ONLY，在数据集上使用 MEMORY_AND_DISK。我看不到你(完全)编码的内容，但总的来说，我可以说，你不应该面对缓存和持久化这两种方式之间的区别，你的问题只是一个顺便说一句，版本不兼容，或者仅仅是 Apache 未修复的错误。

有几个地方要检查看看哪里出了问题

在此链接中https://spark.apache.org/releases/spark-release-1-6-3.html你会发现代码的维护在分支 1.6 中进行，所以这是找到代码的地方 https://github.com/apache/spark/blob/branch-1.6/core/src/main/scala/org/apache/spark/CacheManager.scala

希望对您有所帮助。

关于apache-spark - 为什么 persist(StorageLevel.MEMORY_AND_DISK) 给出与 HBase 的 cache() 不同的结果？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52032904/

24

4

0

文章推荐： R:使用 grid.echo 将 Plot 转换为网格失败，y 轴反向

文章推荐： sql-server - 授予用户 CREATE/ALTER 权限

文章推荐： Nova 中的 Laravel 多态关系

javax.persistence.Persistence.getPersistenceUtil()Ljavax/persistence/PersistenceUtil
在 Spring-MVC 应用程序中，我尝试使用 validator 。我将注释 @NotEmpty 和 @Email 放在我的实体之一上，当我尝试验证它时，出现此错误: java.lang.NoSu
http - 往返时间 Http on non persistent, persistent, persistent with pipelining
网络是我硕士学位的最后一门类(class)。我确实有一个关于如何计算非持久、持久和持久流水线的 http 往返时间的问题。在花了无数小时阅读有关该问题、从其他大学下载笔记甚至搜索 youtube 视
persistence - DDD : Persisting aggregates
让我们考虑典型的订购和订单商品例子。假设订单商品是的一部分订购聚合，只能通过订单添加。所以，添加一个新的订单商品到订购，我们必须通过 Repository 加载整个 Aggreg
java - entityManager.persist(用户) -> javax.persistence.EntityExistsException : User@b3089 is already persistent
// lookup existing user & set a currently null child entity (ContactInfo) user.setContactInfo(contac
spring - import javax.persistence.column, javax.persistence.entity, javax.persistence.Id - 等等 - 无法解析
我正在尝试关注 this tutorial .我想我不是从使用可下载项目开始，而是从我之前做过的一个简单的“spring MVC - Maven - eclipse”项目开始。这个项目运行良好。因此
docker - Kubernetes Persistent Volume Claims 创建一个新的 Persistent Volume，而不是绑定(bind)到可用的 Persistent Volume
我正在使用打开 Kubernetes 选项的 docker 应用程序运行 mac OSX Catalina。我使用以下 yaml 和命令创建了一个 PersistentVolume。 apiVersi
Java 谷歌应用程序引擎 : Do I need to make an object persistent before adding it to another persistent object's persistent data structure?
假设我有一个类 Employee和一个类Company其中包含 Employee 的 LinkedList对象，我想编写一个添加 Employee 的方法到特定的数据库Company 。我创建了一个新
java - Eclipselink 忽略 persistence.xml 中的属性 javax.persistence.jdbc.driver 和 javax.persistence.jdbc.url
我实际上正在将我们应用程序的所有组件更新到最新版本。因此，除其他外，我将从 eclipselink-2.5.0 升级到 eclipselink-2.7.3，并从 Tomcat 7 升级到 TomEE。
maven - InvocationTargetException:javax/persistence/Persistence
我试图遵循《用GlassFish 3开始Java EE 6平台》一书第2章中的示例。我正在Windows中使用cmd中的EclipseLink，Derby和Maven。我真的不知道这一点，将不胜感激!
javax.persistence.Persistence.createEntityManagerFactory 不适用于 ClassGuard
我只是看看ClassGuard (虽然我知道一些 objection )。但是我得到了 javax.persistence.PersistenceException: [PersistenceUni
java bean : difference between persistent field and persistent property?
我的印象是，如果我们使用持久字段，就不需要 getter 方法，因为实体管理器直接引用实例变量。但是，当我从实体中删除 getter 和 setter 方法以具有持久字段时，未从数据库中检索到相应实例
hibernate - javax.persistence.PersistenceException : Invalid persistence. xml
我正在 Eclipse 中使用 Servlet、JPA、EJB 和 JBoss 进行项目。正如您在我的主题标题中看到的，我的 persistence.xml 文件有错误，但我不知道是哪个:
android - redux-persist v5 : State not persisted in ASyncStorage
我已经尝试了一个星期或更长时间来让我的状态在 react native Android 应用程序中持续存在，但在重新水化后状态始终具有初始值。如果我使用 Redux devtools 检查 ASync
javascript - redux-persist:persist 和 rehydrate 有什么区别？
什么时候应该坚持，什么时候应该补充水分？命名约定非常困惑，因为作者几乎没有提到它们在 redux-persist 的上下文中的含义。 . 最佳答案在不真正了解图书馆的情况下: persist = 将
javax.persistence.PersistenceException : No Persistence provider for EntityManager named
我正在尝试按照老师文档中提供的信息设置一个简单的 jpa 2.0 项目。我已经处理这个问题好几个小时了，但无论我做什么，当我尝试创建 EntityManagerFactory 时，我总是遇到这个异常:
javax.persistence.PersistenceException : Unable to locate persistence units
我有一个 Maven 项目，我将其转换为现在可与 Maven 一起使用的 JPA 项目。我的persistence.xml如下: My Persistence Unit
java.lang.NoClassDefFoundError : javax/persistence/Persistence 错误
我正在使用 Netbeans 6.8 并构建简单的 Maven Web 应用程序项目。为持久实体创建实体和主文件 [也创建持久单元] 并使用 EclipsLink。但是当我运行主文件时出现这个错误
kubernetes - 使用 Persistent Volume Claim 时是否必须显式创建 Persistent Volume？
我是 Kubernetes 的新手，我很难理解 Kubernetes 中持久存储背后的整个想法。这就足够了吗，或者我必须创建持久卷，如果我只部署这两个对象而不创建 PV 会发生什么情况？存储应该在
hibernate - javax.persistence.PersistenceException : No Persistence provider for EntityManager named
我正在尝试使用 JPA 为我目前参与的 Java-EE 项目设置持久性，并且我遇到了许多配置问题。目前，我已经在 persistence.xml 中定义了一个 RESOURCE_LOCAL 持久性单元
cassandra - Akka Persistence 和 Akka Persistence Query 有什么区别？
Akka 持久性查询通过提供一个通用的基于异步流的查询接口(interface)来补充 Persistence，各种日志插件可以实现该接口(interface)以公开它们的查询功能。这是来自 akk

首页

博学

6Ren·AI

商城

apache-spark - 为什么 persist(StorageLevel.MEMORY_AND_DISK) 给出与 HBase 的 cache() 不同的结果？