apache-spark - 如何将 Spark DStream 拆分为多个子流-6ren

apache-spark - 如何将 Spark DStream 拆分为多个子流

转载作者：行者123 更新时间：2023-12-04 04:24:26

27

4

我正在尝试使用 apache spark 流。我有一个数据源，来自 HDFS 的 csv 文件。

我打算用 Spark Stream 做以下事情:

使用 textFileStream 定期(5 分钟)读取 CSV 文件
将 DStream 拆分为多个子 dstream。

下面是一个关于需求的简单例子。

我们得到了这种格式的 CSV 文件。

NAME, SCHOOL, GENDER, AGE, SUBJECT, SCORE
USR1, SCH001, male  , 28 , MATH   , 100  
USR2, SCH002, male  , 20 , MATH   , 99
USR1, SCH001, male  , 28 , ENGLISH, 80
USR8, SCHOO8, female, 20 , PHY    , 100

每隔 5 分钟，我读取一个这样的文件，然后我想将这个 Input DStream 拆分成几个 subDStream。每个用户将是一个流。可能吗？

最佳答案

我的意见是，如果您有固定的间隔时间来收集数据，则不需要流媒体功能!当您不知道数据何时到达时，流式传输很有用。但是，如果您的工作需要计算(实时)用户在一天/一小时/等时间内的(即)累计分数，那么流式传输就是您的解决方案。问题是:您想要文件上的照片还是多个文件中的胶片？

在 2 个用例中按 USR 分组是不同的，在流式传输的情况下更复杂。您必须考虑对组和窗口/幻灯片参数进行的计算类型。我建议看this

关于apache-spark - 如何将 Spark DStream 拆分为多个子流，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35980173/

27

4

0

文章推荐： apache-kafka - 如何通过生产者获得 Kafka 最大偏移量

文章推荐： azure - 适用于本地 Azure Service Fabric 群集的负载均衡器

文章推荐： ruby-on-rails - 如何用roo打开xls文件

文章推荐： unit-testing - 阻止 BizTalk 项目调用完全重建？

jquery - 无法选择第 n 个子 div
我试图四处移动一些 div，但我似乎无法通过对象对象选择它们: http://jsfiddle.net/kL3c8/1/ 1 2
CSS:在同一行上获取 2 个子 DIV
我在 WP 网站上使用 Ninja Forms。有 2 个不同的字段(文本框和提交按钮)是单独的 DIV，它们都是单个 DIV 的子项。它们出现在连续的行上，但我似乎无法在同一行上找到它们。帮忙？
css - 为什么第一节元素似乎包含在第 n 个子 sibling 计数中？
我专门针对第 n 个 child (2n)，但是具有给定类的 sibling 的第一个、第三个等应用了 css。 http://jsfiddle.net/relitnosmoge/9HCnH/1/ .
css - 第 n 个子 anchor 问题
我有一个页面可以引入数据库条目并显示它们，并且我已经为所有其他条目/列表提供了这种样式: hjl:nth-child(odd) { background: #F2F2F2;} 这是我的 HTML/PH
javascript - 选择类的所有元素并迭代每个偶数对象(第 n 个子(偶数)替换)
我正在显示每个字母具有相同背景(宽度 31px )的字母表。我需要一半的字母宽度为 30px。这由以下人员处理: div.alpha:nth-child(even) {width: 30px;} 但是
python - 递归第 n 个子 dict.get() - 效率？
我需要从一些大的嵌套字典中获取一些值。出于懒惰，我决定编写一个递归调用自身的函数，直到找到最后一个 child ，或者叶子为空。由于会弹出字典，并且每次调用都会生成一个新字典，我想知道这有多有效。
html - Flex 重叠 2 个子 flex 布局类连续设置
我有 2 个 css 类 leftColumn 和 rightColumn 排列在 React SPA 的行布局中。问题在于，当浏览器变窄时，rightColumn 会在 leftColumn“下方”
javascript - 无法联系到 div 内的第 n 个子 img
我有这个 fiddle ，我想在默认情况下仅显示第一张照片并隐藏其余照片，并通过每次鼠标滚动更改照片。 var i 由 mousescroll 确定，如果 i 5，我希望操作中断，因为没有第 n 个
javascript - 如果存在 2 个子 div，隐藏父 div？
我有一个父 div 和 2 个嵌套的子 div。当第二个子 div 不包含任何内容时，我想隐藏第一个子 div 和父 div。我想知道如何做到这一点？我有 2 个子 div 的原因是因为我正在创建一
javascript - 如何从 2 个子 div 中隐藏父 div？
我有一个父 div 和 2 个嵌套的子 div。当第二个子 div 不包含任何内容时，我想隐藏第一个子 div 和父 div。我想知道如何做到这一点？当 .portfolio-works-conta
ssl - 为什么 SSL 证书链总是至少有 2 个子 CA？
我注意到在我的浏览器中，SSL 证书链始终至少有 2 个子 CA。总是这样吗？如果属实，有人知道为什么吗？最佳答案通常至少有一个中间 CA，因为它可以更轻松地管理子公司和管理滚动，但这不是必需的。
html - 如何使 css 动画停止在最后的第 n 个子 css3
我在让交叉淡入淡出动画停止在最后一个子节点上时遇到了一些麻烦。我知道 animation-fill-mode: forwards ，但它似乎不起作用(我试过将它放在不同的地方，例如在最初的 .cros
html - 如何在父 div 中对齐 3 个子 div
我想水平对齐 3 个不同的子 div。这 3 个 div 包含 1 个图像(高度和宽度 px)。每个 div 都有一个悬停链接(但我希望我的 onmouseover 仅位于图像上方，而不是位于 div
html - 第 n 个子 ul 列表项背景重复到子 ul 列表
我正忙于 Bigcommerce 网站的设计，发现列表项及其各自背景存在 css 语法问题。列表项标题和列表项本身是从数据库生成的。这是我的代码的样子: .Left #SideCategoryLis
javascript - 以 3 个子 div 为中心，宽度均为 100%？
所以我有一个父 div(100% 宽度)和其中的 3 个子 div(也是 100% 宽度)。我如何将“默认显示的 div”设置为第二个子元素，以便左侧 div 向左离开屏幕，而右侧 div 向右离开屏
c++ - 将一个 vector 拆分为 n 个子 vector (反弹)
我正在尝试将 vector 拆分为 n 个部分。我检查了以下解决方案 How to split a vector into n "almost equal" parts 我根据这个评论得出了以下代码:
javascript - 如何将这 2 个子 div 并排附加到 1 div？
下面是我的div: Abc pqr function AppendDiv(10,11) { var eFrom = $('#' + 10); var toD
html - 使用带有 jsf 重复标记的第 n 个子 css 选择器
我试图让我的 html 页面与 JSF 一起工作，并且偶然发现了一个问题，即如何让 nth-child css 选择器与 jsf 一起工作 repeat标签？现在，对于 repeat 标签生成的每个元
html - 根据 2 个子
设置父
的边框
这个问题在这里已经有了答案: How do you keep parents of floated elements from collapsing? [duplicate] (15 个答案) 关闭
CSS:避免 ID？使用类/直接子选择器/第 n 个子？
试图整理我的 CSS，一团糟，我有许多 ID 分布在 div 和子 div 中，以便我能够在 CSS 中选择它们。我想知道这样做的正确方法是什么？我考虑过使用类，这似乎是一种更好的方法，但仍然在每

首页

博学

6Ren·AI

商城

apache-spark - 如何将 Spark DStream 拆分为多个子流