- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 Ubuntu 环境中使用 Spark 1.5.2 和 Python 2.7。
根据有关 countByValue 和 countByValueAndWindow 的文档: Transformations on dstreams
Window operations
countByValue: 当在类型为 K 的元素的 DStream 上调用时,返回一个新的(K,Long)对的 DStream,其中每个键的值是它在源 DStream 的每个 RDD 中的频率.
countByValueAndWindow: 当在 (K, V) 对的 DStream 上调用时,返回一个新的 (K, Long) 对的 DStream,其中每个键的值是它在滑动窗口中的频率。与 reduceByKeyAndWindow 一样,reduce 任务的数量可通过可选参数进行配置。
所以基本上这两个函数的返回值应该是(K, Long) 对列表,对吧?
然而,当我在做一些实验时,返回值竟然是一个整数列表,而不是对!
另外,pySpark在Github上的官方测试代码中: Link1 Link2
您可以看到“预期结果”是整数列表!在我看来,它正在计算不同元素的数量并将它们组合在一起。
我以为我以某种方式误解了文档,直到我在 Github 上看到 scala 的测试代码:Link1 Link2
类似的测试用例,但此时的结果是成对的序列!
所以总而言之,scala 的文档和测试用例告诉我们结果是成对的。但是 python 测试用例和我自己的实验表明结果是整数。
我是 PySpark 和 Spark Streaming 的新手。有人可以帮我解释一下这种不一致吗?现在我正在使用 reduceByKey 和 reduceByKeyAndWindow 作为解决方法。
引用资料:
更新
此错误计划在 pyspark 2.0.0 中修复
最佳答案
我同意,countByValueAndWindow 有一个错误,它应该返回按值计数,而不仅仅是没有值的计数。即使您在 Python 中运行与 Scala 版本运行相同的测试用例 (link),您也可以看到此函数的 pyspark 版本如何仅返回计数而不返回它们的值(例如,对)
>>> input = [['a'], ['b', 'b'], ['a', 'b']]
>>> from pyspark.streaming import StreamingContext
>>> ssc = StreamingContext(sc, 1)
>>> input = [sc.parallelize(d, 1) for d in input]
>>> input_stream = ssc.queueStream(input)
>>> input_stream2 = input_stream.countByValueAndWindow(2, 1)
>>> def f(rdd):
... rows = rdd.collect()
... for r in rows:
... print r
...
>>> input_stream2.foreachRDD(f)
>>>
>>> sc.setCheckpointDir('/home/xxxx/checkpointdir')
>>> ssc.start()
>>> 1
2
2
2
0
您应该将其作为 Jira 中的错误 (link) 提出,这应该很容易修复。我看不出任何人如何以当前形式使用此函数,因为如果没有键,返回的那些值数字将毫无意义。
关于python - python : bugs in countByValue and countByValueAndWindow? 中的 Spark 流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34114585/
我刚刚更新了 Ruby,现在我在尝试启动 compass 时遇到以下错误: Encoding::CompatibilityError on line ["28"] of /usr/local/Cell
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在尝试在我的 iOS 应用程序中开发可折叠/ Accordion 式的功能。这将是您可以在网站上找到的典型 FAQ 类型功能。我想点击标题,然后显示详细信息。 因为这是帮助部分,只有几个项目,我认
我正在尝试设计一个基于 REST 的 Web 服务来与我正在开发的农场动物管理系统进行交互。 为了详细说明问题,我收藏了动物 属于一个农场。每只动物都有自己的信息——例如姓名、身份证号、品种年龄等。因
我有 3 种不同的表单,其中复选框数量不同,每个部分基本上代表一个表单,因此当用户选择该部分中的复选框时,它会显示他们在该部分的总金额中 checkout 了多少 HTML
我有一份 32 页的 PDF 版家谱。与其将家谱全部放在一个非常大的 PDF 页面上(这是我想要的),不如将其格式化为一组 8 个单独的美国信纸大小的页面应该在整个宽度上缝合; 4 行这样就完成了树。
指SASS implementation for Java? : 在 Maven 目标编译包中自动编译 compass-style.org 样式表的最佳方法是什么? 我不想发送太多的自编译库,也不想通
鉴于以下 XAML... 我正在寻找一种绑定(bind) ComboBox、Button 和 Command 的方法,以便当 ComboBox 的值更改时,在 Command 上调用 CanExe
在玩具应用程序中,我有一个显示所有帖子标题的“帖子”模板。当您单击每个标题时,我不想直接进入“显示” View ,而是直接内联展开该帖子的其余内容。 我考虑过让 postRoute 重用 postsR
我需要一些使用 Twitter Bootstrap 或其他响应式框架的自定义 Swagger-UI 实现。需要在我的移动设备上使用这样的 UI 测试我的 API,但 swagger-ui 不能很好地扩
我正在做一个项目,我真的在尝试编写面向对象的 JavaScript 代码。我刚刚开始阅读Douglas Crockford's JavaScript: The Good Parts我很快开始意识到用
在 C# 中,我通过执行以下操作来加密文本数据(请注意我正在以 block ( block )的形式加密数据): public string EncryptData(string pu
我正在构建一个社交网站,该网站将向全世界公开 REST API (WCF WebAPI),以便任何开发人员都能够为该网站创建客户端应用程序、将其与其他服务集成等。 我想为 API 实现 Faceboo
我是一名优秀的程序员,十分优秀!