- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个数据集列表,我想按所有数据集共有的特定键进行分区,然后运行一些对所有分区数据集都相同的连接/分组。
我正在尝试以使用 Spark 的 partitionBy 通过特定键创建分区的方式设计算法。
现在,一种方法是在循环中对每个分区运行操作,但效率不高。
我想看看我是否有手动分区数据,我可以并行地对这些数据集运行操作。
我刚刚开始学习 Spark,所以请原谅我的问题。
考虑客户 ID 的数据集及其在不同数据集中的行为数据,如浏览/点击等。说一个用于浏览,另一个用于点击。首先,我正在考虑按客户 ID 对我的数据进行分区,然后为每个分区(客户)加入某些属性,例如浏览器或设备,以查看每个客户的行为方式。所以基本上,它就像一个嵌套的并行化。
这在 Spark 中甚至可能吗?有什么明显的我想念的吗?我可以引用一些文档?
最佳答案
试试这个-
1. Create test dataset (Totol Record = 70000+) to perform parallel operation on each
scala> ds.count
res137: Long = 70008
scala> ds.columns
res124: Array[String] = Array(awards, country)
2. Assume partition column as "country".
scala> ds.select("country").distinct.show(false)
+-------+
|country|
+-------+
|CANADA |
|CHINA |
|USA |
|EUROPE |
|UK |
|RUSSIA |
|INDIA |
+-------+
3. Get sum of records for each country [ **Without parallel process for each partition**]
scala> val countries = ds.select("country").distinct.collect
countries: Array[org.apache.spark.sql.Row] = Array([CANADA], [CHINA], [USA], [EUROPE], [UK], [RUSSIA], [INDIA])
scala> val startTime = System.currentTimeMillis()
startTime: Long = 1562047887130
scala> countries.foreach(country => ds.filter(ds("country") === country(0)).groupBy("country").count.show(false))
+-------+-----+
|country|count|
+-------+-----+
|CANADA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|CHINA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|USA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|EUROPE |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|UK |10002|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|RUSSIA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|INDIA |10001|
+-------+-----+
scala> val endTime = System.currentTimeMillis()
endTime: Long = 1562047896088
scala> println(s"Total Execution Time : ${(endTime - startTime) / 1000} Seconds")
Total Execution Time : **8 Seconds**
4. Get sum of records for each country [ **With parallel process for each partition**]
scala> val startTime = System.currentTimeMillis()
startTime: Long = 1562048057431
scala> countries.par.foreach(country => ds.filter(ds("country") === country(0)).groupBy("country").count.show(false))
+-------+-----+
|country|count|
+-------+-----+
|INDIA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|CANADA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|RUSSIA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|USA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|UK |10002|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|CHINA |10001|
+-------+-----+
+-------+-----+
|country|count|
+-------+-----+
|EUROPE |10001|
+-------+-----+
scala> val endTime = System.currentTimeMillis()
endTime: Long = 1562048060273
scala> println(s"Total Execution Time : ${(endTime - startTime) / 1000} Seconds")
Total Execution Time : **2 Seconds**
结果:-
With parallel process on each partition, it took ~ **2 Seconds**
Without parallel process on each partition, it took ~ **8 Seconds**
我测试过检查每个国家的记录数量,你可以执行任何过程,例如写入hive表或hdfs文件等
希望对您有所帮助。
关于algorithm - 有没有办法对分区的 spark 数据集并行运行操作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56843096/
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
我已经完成了注册页面,并且运行顺利。 现在我需要弄清楚登录部分。我想要它,所以一旦用户登录,它就会将他们带到私有(private)页面,只有登录的用户才能看到。 它不需要针对每个用户进行个性化设置,只
出于个人好奇心,我目前正在学习区 block 链的工作原理。我正在学习这门类(class),现在我已经使用网络套接字设置了点对点连接。区 block 链应用程序的多个实例现在可以使用这些套接字运行并相
我读过: The blockchain database isn’t stored in any single location, meaning the records it keeps are t
Closed. This question needs to be more focused。它当前不接受答案。 想要改善这个问题吗?更新问题,使它仅关注editing this post的一个问题。
如果我在区块链中进行交易,是否只有在将交易添加到区块链后才会进行比特币转账?如果是这样,挖掘区块可能需要时间,并且无法进行紧急付款。那么这不是区块链的劣势吗? 最佳答案 如果您不重视能够在没有第三方(
Closed. This question needs to be more focused。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题
根据我的理解,我读到的关于区 block 链的所有内容都表明,即使在私有(private)区 block 链上,每个参与者都可以查看所有交易。我看到它提到区 block 链的一个用例可能是共享医疗数据
服务器正在发送消息时,如何阻止连接到服务器的一个IP地址。我的发送消息选项程序如下所示。 private void buttonSendMsg_Click(对象发送者,EventArgs e) {
iam正在hadoop apache 2.7.1上工作 和iam添加大小不超过100 Kb的文件 所以如果我将块大小配置为1 mb或默认值是 128兆字节 不会影响我的文件,因为它们只会保存在一个块中
我有一个docker-compose文件here。我可以连接到7051并注册我的chaincode客户端,但是当我尝试连接到localhost:7050时,我得到一个错误,该错误在使用curl测试时如
从数据类型来看,区 block 链是单链表吗?因为每个 block 都使用哈希引用前一个 block 。 或者它是某种树? 最佳答案 区 block 链表示为单链表的方式。每个 block 都有前一个
我无法理解给定代码片段的 hashcode() 部分。 我尝试过搜索它,但我无法弄清楚。 this.hash = Arrays.hashCode(new Integer[]{data.has
已关闭。这个问题是 not about programming or software development 。目前不接受答案。 这个问题似乎不是关于 a specific programming
我正在通过一些在线示例学习区 block 链。我有这个高级代码,我用以前的哈希创建一个新 block ,然后向它添加一个事务,然后生成 block 的困难哈希(有 8 个前导零) Block blo
我们有一个包含一些数字商品的网站。从那里购买的用户需要用 BTC 购买一些信用。在他购买信用卡后,脚本必须将他用 BTC 购买的货币 (USD) 数量加载到他的账户中。 所以这里我们有 HTML 表单
我目前正在使用 enumerateObjectsUsingBlock block 在 subview 下进行枚举,我怎样才能确定 block 的完成? 下面是区 block 内容 [self.view
我通常将显示 block 放在链接上,以使按钮的所有 div 都处于事件状态,而不仅仅是文本。但在这种情况下,我需要在 ul li 中使用 display:inline-block 我认为这会禁用其他
我正在尝试创建付款账单并通过电报机器人发送给我的客户:我正在使用区 block 链 API V2-https://blockchain.info/api/api 接收。我的代码是: xpub='***
有个面试题:区 block 链和不可变链表有什么区别? 我回答他们是相同的技术,然后没有通过测试。请纠正我的错误。 最佳答案 链表中的每一项通常通过指针或内存地址指向链表中的下一项。 区 block
我是一名优秀的程序员,十分优秀!