google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？-6ren

google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？

转载作者：行者123 更新时间：2023-12-02 01:47:59

26

4

我正在考虑运行一个托管 Hive 服务器的持久性 GCP Dataproc 集群，该集群将提供 HiveQL 接口(interface)，用于查询和更新存储在 Google Cloud Storage 中的长期数据，可通过 Cloud Storage connector 访问。 .

列出了临时集群的优点，但也提出了以下警告:

If you can't accomplish your work without a persistent cluster, youcan create one. This option may be costly and isn't recommended ifthere is a way to get your job done on ephemeral clusters.

除了无法享受临时 Dataproc 集群所列出的优点之外，运行持久性 Dataproc 集群是否还有其他缺点/陷阱？

我维护持久集群的主要动机是避免重新创建集群的任何管理开销。集群需要能够无限期地为 Hive 客户端提供服务；没有自然的集群结束日期。

编辑:需要明确的是，我担心长时间运行的持久集群可能会随着时间的推移积累故障，类似于内存泄漏。

最佳答案

当您拥有持久集群时，会发生两件事:

首先，您将尝试在其上运行尽可能多的进程以优化使用。
如果您位于物理 hadoop/spark 集群上，这是一个好主意，因为硬件成本高昂，但您将结束解析日志以找出哪个部门或用例实际上正在使用您的所有资源集群容量。
其次，您的集群将闲置一段时间，并且您将为在需要运行作业之前不执行任何操作的机器付费。
由于您位于云中，因此您可以仅为需要运行的作业创建一个 dataproc 集群，并在作业完成时废弃它(仅将结果存储在云存储中)。

如果您在自己的项目中运行该集群(和作业)，您将能够轻松识别每个中心/部门等的成本，而无需解析日志文件。

当然，当没有计算可做时，您只需关闭机器即可节省资金。

在不需要的时候关闭东西使得云具有成本效益。

如果您只需要进行临时(一次性)查询，则可以让 BigQuery 直接从云存储中检索数据。请记住，BQ 不会缓存针对存储的查询 -> 不要使用该查询来提供仪表板应用程序。

通常，使用 bigquery 进行数据访问/报告比使用 24x7 运行的 dataproc 集群更便宜(也更快)...除非您整天有很多工作，并且它们之间的“空闲”时间非常少...或者您无法修改查询 Hive 的应用程序。

关于google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70670123/

26

4

0

文章推荐： java - 输入和输出流的 IOUtils.copy() 速度非常慢

文章推荐： rubymine - 在 Rubymine 中完成 Siteprism 元素的代码

filesystems - 持久性:数据树存储为目录树
我想知道将内存中的树结构存储为用于持久性目的的目录树的实用性。在我的例子中，他的目标文件系统将是 ZFS，一旦创建了结构，它将很少被多个进程访问。使用目录树作为数据树持久化机制的性能如何？最佳答案
Docker 注册表镜像 - 持久性
我已经创建了 docker private registry 并且能够从同一网络中的其他 raspi 推送和拉取(将 registry ip 添加到 insecure-registry 选项) doc
haskell - 持久性 - 如何过滤记录列的字段
我正在尝试构建我的第一个“真正的”Haskell 应用程序，一个使用 Servant 的 API，我在其中使用 Persistent 作为数据库后端。但是我在尝试使用 Persistent 进行某种类
C# 持久性 cookie
我已经在 stackoverflow 上看到了 ASP.NET MVC C# 中的持久性 cookie 示例。但我不明白为什么下面的代码不起作用。首先我写入cookie: HttpCookie co
Java 持久性 API
我是 Java Persistence API 的新手.我刚学会它，现在想在我的 Java 桌面应用程序中使用它。但我有以下问题: Q1。哪个 JPA 实现的大小最小(因为我希望我的应用程序的大小尽可
Android MVP 持久性
我正在尝试按照 android 蓝图指南将 MVP 模式实现到我的项目中。目前，我将用户(实体数据)保存在我的 Presenter 中，我真的不喜欢这样做，因为在每次配置更改时，presenter 都
c++ - 具有历史的搜索结构(持久性)
我需要一个类似 map 的数据结构(在 C++ 中)来存储具有以下功能的对 (Key,T): 可以在当前结构中插入新元素(Key,T) 可以在当前结构中根据Key搜索元素您可以制作当前版本结构的“快
java - Quick'n'dirty 持久性
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
java - MBean 持久性
我的配置 MBean 的持久性存在问题。我的配置: @ManagedResource(objectName = "pl.mobile
Docker RabbitMQ 持久性
docker 中的 RabbitMQ 在删除没有卷的容器后丢失数据。我的 Dockerfile: FROM rabbitmq:3-management ENV RABBITMQ_HIPE_COMPI
haskell - 持久性:CRUD TypeClass
我正在尝试编写一个类型类，以简化使用持久性、aeson 和 scotty 编写 CRUD 后端这是我的想法: runDB x = liftIO $ do info CRUD a where
java - 使用多线程的 JPA 持久性
当我尝试使用持久化对象时遇到问题多线程 . 详情: 假设我有一个对象 PaymentOrder其中有一个列表 PaymentGroup (一对多关系)和 PaymentGroup包含 CreditT
haskell - 纯功能性(持久性)环形缓冲区
我想使用纯功能数据结构和以下操作来实现环形缓冲区通过索引进行高效随机访问添加到前面从背面移除使用持久数据结构的原因是因为我有一个写入器线程和多个读取器线程，并且我想避免读取器阻塞写入器。这可
eclipselink - Derby 持久性.xml
persistence.xml 中关于 derby 客户端驱动程序的属性声明应该是什么？例如: 当我想从 Java 更新数据库时，我不断收到下面的异常。实际上我需要客户端驱动程序而不是 Embed
java - 持久性 Java 数据库
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
Perl CGI 持久性 cookie
我希望用户即使关闭浏览器也不必登录。我的 cookie 将在一个月后过期。用户登录成功 $session = CGI::Session->new (undef, undef, {Directory
java - 持久性 jar 的问题
我正在与 JBOss 作斗争，并且遇到了一个似乎很难解决的问题，但事实证明我不能。当我尝试部署一个简单的 Java Web 应用程序时，遇到异常: org.hibernate.ejb.Hibernat
.net - WF 持久性 - 删除旧的工作流程
当使用具有持久性的 Workflow Foundation 时，我们想删除一些(或全部)工作流，这些工作流不再应该被持久化/运行。我可以使用任何脚本/工具吗？最佳答案没有可用于执行此操作的标准
java - 如何将不同的并发策略分配给同一个(持久性)实体？
我正在使用 JPA，并且我正在为所有引用实体使用二级缓存。一切正常，我可以从二级缓存中获取实体，因为它们之前已经被选中。现在，我有两个应用程序，它们都使用相同的数据库(因此它们都使用相同的表、值等)
java - 外部库数据模型的 JPA 持久性
所以我正在制作一个 spring-boot 应用程序，并且从外部库导入一些数据模型(通过 maven 导入)。我有一些模型，它有一个外部库类型的字段，我希望能够保留它。像这样的东西: package

首页

博学

6Ren·AI

商城

google-cloud-dataproc - 为什么不推荐持久性 Dataproc 集群？