- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Spark 版本:1.4.0 Cassandra 版本:2.1.8
我正在使用 datastax Spark Cassandra 连接器来桥接 Spark 和 Cassandra。我在 Spark 中有 6 个节点与 6 个不同的工作线程一起运行。我有 2 个 Cassandra 节点协助此操作。
我尝试使用示例应用程序来计算列族中的行数( CassandraUtil.javaFunctions(sc).cassandraTable("keyspace","columnfamily").count())。
现在,当我将这个单个作业分派(dispatch)给主服务器时,该作业在 Spark 集群中的 2 个工作节点中运行(从事件时间线获取)。
问题
编辑
我添加了运行的图片。我只有 10 个不同的分区。这是一个简单的计数操作。
我想我的问题仍然是一个谜。
如果您看到提供的附件,我想您就会得到一个想法。这是提交给我的 Spark Master 的单个作业。想知道它如何在两个不同的执行器中运行。两个执行器返回相同数量的字节。因此,这表明两者都已从 cassandra 获取了所有 10 个分区。如果事情是这样发生的,那么与 cassandra 相比,spark 能为我提供什么?或者,我是否必须以其他方式获取它,以便两个不同的工作人员获取十个分区?
最佳答案
我建议您花几个小时阅读 Spark 和 C*。我在这篇文章的底部挑选了一些推荐 Material 。
现在让我回答您的问题:
I dispatched a single job. Why it was done by two workers? Is it like one worker acts like a master here?
可能与资源可用性或作业中的分区数量有关(可能是后者)。
正如 Russ 所说,“增加作业的并行性。尝试增加作业中的分区数量。通过将工作拆分为更小的数据集,在给定时间内存中需要驻留的信息会更少。对于Spark Cassandra 连接器作业这意味着减少拆分大小变量。”
要在 1.2 中进行调整,请使用:
spark.cassandra.input.split.sizeSpark.cassandra.output.batch.size.rowsSpark.cassandra.output.batch.size.bytes
在较新的版本中,您还拥有:Spark.cassandra.output.throughput_mb_per_sec
I found the deserialisation time to be very high in one worker. Other worker completed the job pretty fast( 1 took 40 seconds and 2 took 1 second). Can you throw some light on this?
来自Kay who actually added the feature到网络用户界面:
“反序列化任务的时间可能相对较大安排短时间工作的任务时间,并了解何时时间较长会有所帮助开发人员意识到他们应该尝试减少闭包大小(例如,通过包含任务描述中的数据较少)。”
Both the workers seems to have established a connection with Cassandra and has returned a result. So , in my view, both are doing the same job. Can you throw some light on this?
Spark 并行工作。因为这是一种分布式计算范例,所以您可以通过启动并行工作的执行器来利用多个节点和多个核心。两个执行器都会从 C* 中提取数据,但它们会根据分区提取不同的数据。
有关详细信息,请观看一些介绍视频。
I am still wondering where the implementation of RDD will fit in this distributed realm with Cassandra . Can someone throw some light on this? How does multiple workers know which partition of Cassandra they have to work on , if it can , say ,split 10k partitions among 6 workers? Is it like ,fetching is all done by one worker and processing is done by 6 of them? Even in that case, execution logic remains the same in all workers(fetch from Cassandra and process). How does Spark do this?
每个人都会根据分区获取并处理自己的数据。
要获取有关如何分区作业的信息,请使用:
rdd.partitions
如果您将 Spark 和 Cassandra 放在一起,就像 DSE 中的情况一样,您将获得数据局部性的优势(无需将数据从 c* 流式传输到 Spark Worker)。
Would like to know the real advantage of using Spark with Cassandra. Is it at memory management level or it has some other advantages?
这里可能太多,无法列出,请参阅推荐阅读/查看。最重要的是用于批处理和流分析的 SQL 风格查询(连接、聚合、groupby 等)+ 使用 MLLIB 的精美统计建模、使用 graphx 的分析图等。
这里有一些可以帮助您快速入门的好 Material :
这是 Russ 的高级演示,介绍 Spark 和 C* 的可能性: http://www.slideshare.net/planetcassandra/escape-from-hadoop
OReily 网络研讨会,由 DataBricks 的 Sameer 主持,介绍 DSE 如何与 Spark 集成: http://www.oreilly.com/pub/e/3234
连接器如何读取数据: https://academy.datastax.com/demos/how-spark-cassandra-connector-reads-data
一旦您真正尝试让东西正常工作,有关 Spark 故障排除的关键帖子将会很有帮助。这些将回答您的大部分 opps/perf 问题: http://www.datastax.com/dev/blog/common-spark-troubleshooting
https://databricks.com/blog/2015/06/16/zen-and-the-art-of-spark-maintenance-with-cassandra.html
桑迪的两个类似且有值(value)的帖子(不是特定于 c* 的): http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/ http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/
关于cassandra - Spark 中工作如何分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31553159/
我在Windows 10中使用一些简单的Powershell代码遇到了这个奇怪的问题,我认为这可能是我做错了,但我不是Powershell的天才。 我有这个: $ix = [System.Net.Dn
var urlsearch = "http://192.168.10.113:8080/collective-intellegence/StoreClicks?userid=" + userId +
我有一个非常奇怪的问题,过去两天一直让我抓狂。 我有一个我试图控制的串行设备(LS 100 光度计)。使用设置了正确参数的终端(白蚁),我可以发送命令(“MES”),然后是定界符(CR LF),然后我
我目前正试图让无需注册的 COM 使用 Excel 作为客户端,使用 .NET dll 作为服务器。目前,我只是试图让概念验证工作,但遇到了麻烦。 显然,当我使用 Excel 时,我不能简单地使用与可
我开发了简单的 REST API - https://github.com/pavelpetrcz/MandaysFigu - 我的问题是在本地主机上,WildFly 16 服务器的应用程序运行正常。
我遇到了奇怪的情况 - 从 Django shell 创建一些 Mongoengine 对象是成功的,但是从 Django View 创建相同的对象看起来成功,但 MongoDB 中没有出现任何数据。
我是 flask 的新手,只编写了一个相当简单的网络应用程序——没有数据库,只是一个航类搜索 API 的前端。一切正常,但为了提高我的技能,我正在尝试使用应用程序工厂和蓝图重构我的代码。让它与 pus
我的谷歌分析 JavaScript 事件在开发者控制台中运行得很好。 但是当从外部 js 文件包含在页面上时,它们根本不起作用。由于某种原因。 例如; 下面的内容将在包含在控制台中时运行。但当包含在单
这是一本名为“Node.js 8 the Right Way”的书中的任务。你可以在下面看到它: 这是我的解决方案: 'use strict'; const zmq = require('zeromq
我正在阅读文本行,并创建其独特单词的列表(在将它们小写之后)。我可以使它与 flatMap 一起工作,但不能使它与 map 的“子”流一起工作。 flatMap 看起来更简洁和“更好”,但为什么 di
我正在编写一些 PowerShell 脚本来进行一些构建自动化。我发现 here echo $? 根据前面的语句返回真或假。我刚刚发现 echo 是 Write-Output 的别名。 写主机 $?
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
我将一个工作 View Controller 类从另一个项目复制到一个新项目中。我无法在新项目中加载 View 。在旧项目中我使用了presentModalViewController。在新版本中,我
我对 javascript 很陌生,所以很难看出我哪里出错了。由于某种原因,我的功能无法正常工作。任何帮助,将不胜感激。我尝试在外部 js 文件、头部/主体中使用它们,但似乎没有任何效果。错误要么出在
我正在尝试学习Flutter中的复选框。 问题是,当我想在Scaffold(body :)中使用复选框时,它正在工作。但我想在不同的地方使用它,例如ListView中的项目。 return Cente
我们当前使用的是 sleuth 2.2.3.RELEASE,我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
我有一个组合框,其中包含一个项目,比如“a”。我想调用该组合框的 Action 监听器,仅在手动选择项目“a”完成时才调用。我也尝试过 ItemStateChanged,但它的工作原理与 Action
你能看一下照片吗?现在,一步前我执行了 this.interrupt()。您可以看到 this.isInterrupted() 为 false。我仔细观察——“这个”没有改变。它具有相同的 ID (1
我们当前使用的是 sleuth 2.2.3.RELEASE,我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
我正在尝试在我的网站上设置一个联系表单,当有人点击发送时,就会运行一个作业,并在该作业中向所有管理员用户发送通知。不过,我在失败的工作表中不断收到此错误: Illuminate\Database\El
我是一名优秀的程序员,十分优秀!