- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有以下数据(你可以通过复制粘贴的方式重现):
from pyspark.sql import Row
l = [Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=None), Row(value=None), Row(value=None), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=True), Row(value=None), Row(value=None), Row(value=None), Row(value=True), Row(value=None), Row(value=True), Row(value=None)]
l_df = spark.createDataFrame(l)
让我们看一下l_df
的架构:
l_df.printSchema()
root
|-- value: boolean (nullable = true)
现在我想使用 cube()
来计算 value
列中每个不同值的频率:
l_df.cube("value").count().show()
但是我看到了两种类型的 null
值!
+-----+-----+
|value|count|
+-----+-----+
| true| 67|
| null| 100|
| null| 33|
+-----+-----+
验证我实际上没有两种类型的null
:
l_df.select("value").distinct().collect()
而且确实只有一种类型的null
:
[Row(value=None), Row(value=True)]
只是为了仔细检查:
l_df.select("value").distinct().count()
它返回 2
。
我还注意到 len(l)
是 100
并且第一个 null
等于这个数字。为什么会这样?
系统信息:Spark 2.1.0、Python 2.7.8、[GCC 4.1.2 20070626 (Red Hat 4.1.2-14)] on linux2
最佳答案
这不是两种类型的空值,而是不同级别聚合的结果。如 What is the difference between cube, rollup and groupBy operators? 中所述您的 cube
应用程序相当于:
SELECT NULL AS value, COUNT(*) FROM df
UNION ALL
SELECT value, COUNT(*) FROM df GROUP BY value
第一个查询生成元组 (null, 100)
(记录总数),其中 NULL
只是一个占位符,第二个查询生成元组 ( true, 67)
, (null, 33)
其中 NULL
是 value
列的级别之一。
用grouping
(或grouping_id
)很容易检查:
from pyspark.sql.functions import grouping, count
l_df.cube("value").agg(count("*"), grouping("value")).show()
# +-----+--------+---------------+
# |value|count(1)|grouping(value)|
# +-----+--------+---------------+
# | true| 67| 0|
# | null| 100| 1|
# | null| 33| 0|
# +-----+--------+---------------+
关于python - pyspark dataframe cube 方法返回重复的空值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49374608/
我试图找到最有效的方法来检查 2 个任意大小的立方体是否相互碰撞。立方体的边长不一定都相等(一个盒子是可能的)。鉴于这些限制,我如何有效地检查它们是否发生碰撞? (每个盒子有24个顶点)谢谢 它们是轴
背景:我正在分析通话详细记录 (CDR) 数据,以便根据通话时长、通话时间(节假日通话或非节假日通话、商务通话)对客户进行分割或非商务电话)、用户年龄组和性别。数据来自两个表名cdr(包括card_n
我想要 status=2 或 status3`, // ${SECURITY_CONTEXT.status.unsafeValue()`, }); 一般来说,最好不要这样做;相反,我建议使用 seg
我正在开发一个olap Web应用程序,对于对象Cube我有2种类型的导入:org.olap4j.metadata.Cube或mondrian.olap.Cube。我应该使用什么? 最佳答案 您应该只
我要在Threejs中创建一个第三人称相机,它跟随一个立方体旋转,并在立方体旋转时旋转。这就是我所做的。它在下面的框中工作,但当框旋转时,它就不一样了。。所以请帮帮我。我试着自己创造它。我是这么做的
我有日期范围内的商品价格表。在 cube.js 中对此进行建模以允许时间维度查询(例如随时间变化的价格或商品的平均价格)的最佳方式是什么? 谢谢! 表格看起来像: CREATE pricing tes
我正在使用 TFS 多维数据集 as documented here并且我得到了“总行数”的奇怪结果。如果我查看 Visual Studio 中的一个文件,我会看到一个文件可能有 42 行长(总计、注
我正在尝试实现Korf's algorithm来解决3x3x3魔方。解决方案的一部分是创建模式数据库。 这是paper的引文,从字面上包含有关如何执行操作的全部信息: 用一个 从目标状态进行广度优先搜
我目前正在研究这个:我生成一个包含多个 .vtr 文件的 Paraview .vtm 文件。每个 .vtr 文件都包含值和坐标,如下所示,假设我正在处理 8 的维度:
Cube.js 是一个开源的分析平台,可以作为数据源和应用之间的中间层。 数据分析是一个时髦的领域,有许多解决方案可供选择。其中之一是 Cube.js,这是一个开源的分析平台。你可以
我有一个 postgres 数据库,其中包含一个包含 100 维词嵌入的文档表,并使用它来查找相似文档。 CREATE TABLE documents( id bigint, title
所以我对 BI 的概念基本上是全新的,并且我继承了一个现有的 ETL 过程,它是一个两步过程: 将数据加载到仅由多维数据集处理使用的数据库中 针对所述数据库启动 SSAS 多维数据集处理 它看起来很好
我正在使用 cube.js 通过将其绘制为折线图来比较数据随时间的变化。 第一步:成功生成 cube.js schema 后,数据如下所示: 第 2 步: 现在,当我尝试检查折线图时,它显示的线条如下
当我在创建数据源 View 后尝试处理维度时,出现错误: The project could not be deployed to the server because of the followin
我在连接到 AWS 无服务器上的 cube.js 后端并在前端仪表板中执行/cubejs-api/v1/load 请求时遇到了一些问题。我一直收到 {"error":"Continue wait"}
我对此很陌生,所以我可能犯了一个简单的错误。 我需要使用远程数据库制作一个 OLAP 多维数据集。 设置维度和度量并创建多维数据集后,我无法将多维数据集启动到本地服务器。 我不断收到错误, “由于以下
我们构建了一个 SSAS ROLAP 多维数据集,其中数据源是 memSQL。该多维数据集使用 Visual Studio 2019 构建,用于连接 memSQL 数据源的驱动程序为“MySQL .N
因此,我正在通过SICP进行工作,其中一个问题(1.8)是使用Newton-Raphson method实现类似于平方根过程的立方根过程。我编写了程序并尝试执行该程序,但出现了以下错误:*: numb
编译架构: {"version":"default_schema_version_78dca52738894dbb23e7069f2e88ae73"} Internal Server Error: {
编译架构: {"version":"default_schema_version_78dca52738894dbb23e7069f2e88ae73"} Internal Server Error: {
我是一名优秀的程序员,十分优秀!