python - 使用 toPandas 时强制将 null 一致转换为 nan-6ren

python - 使用 toPandas 时强制将 null 一致转换为 nan

转载作者：行者123 更新时间：2023-12-04 04:09:52

25

4

pyspark 中的 toPandas 方法对于数字列中的空值不一致。有没有办法让它更一致？

一个例子

sc 是 sparkContext。 Spark 版本是2.3.2。我不确定如何包含笔记本结果，但我只会评论输出。它非常简单，您可以自己在笔记本上检查。

sparkTest = sc.createDataFrame(
    [
        (1,    1   ),
        (2,    None),
        (None, None),
    ],
    ['a', 'b']
)
sparkTest.show() # all None values are neatly converted to null

pdTest1 = sparkTest.toPandas()
pdTest1 # all None values are NaN
np.isnan(pdTest1['b']) # this a series of dtype bool

pdTest2 = sparkTest.filter(col('b').isNull()).toPandas()
pdTest2 # the null value in column a is still NaN, but the two null in column b are now None
np.isnan(pdTest2['b']) # this throws an error

这在编程时当然是有问题的，并且无法事先预测列是否全部为空。

顺便说一句，我想将此报告为一个问题，但我不确定在哪里。 github page似乎没有问题部分？

最佳答案

np.isnan 可以应用于原生 dtype 的 NumPy 数组(例如 np.float64)，但应用于对象数组时会引发 TypeError:

pdTest1['b']
0    1.0
1    NaN
2    NaN
Name: b, dtype: float64

pdTest2['b']
0    None
1    None
Name: b, dtype: object

如果你有 pandas，你可以使用 pandas.isnull 代替:

import pandas as pd


pd.isnull(pdTest1['b'])
0    False
1     True
2     True
Name: b, dtype: bool


pd.isnull(pdTest2['b'])
0    True
1    True
Name: b, dtype: bool

这对于 np.nan 和 None 都是一致的。

或者，您可以(如果可能的话给定您的数据)，将您的 pdTest2['b'] 数组转换为原生 numpy 类型之一(例如 np.float64) 以确保 np.isnan 正常工作，例如:

pdTest2 = sparkTest.filter(f.col('b').isNull()).toPandas()
np.isnan(pdTest2['b'].astype(np.float64)) 
0    True
1    True
Name: b, dtype: bool

关于python - 使用 toPandas 时强制将 null 一致转换为 nan，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61910148/

25

4

0

文章推荐： arrays - 将数据附加到 Swift 中的全局数组

文章推荐： database - 在没有主键的情况下查询 Firestore

文章推荐： react-native - react native 后嵌套表单数据

文章推荐： iOS 13 safaridriver 无法创建 safari session

c# - 保持字典的 Where() 一致
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Recreating a Dictionary from an IEnumerable 在 Dictiona
imagemagick - 是否可以修剪图像并强制其尺寸与 ImageMagick 一致？
是否可以使用命令行版本的 ImageMagick 修剪图像(比如带有 alpha 的 PNG)，使输出图像的宽度和高度都是偶数(不是奇数)？准确地说，应该先修剪输出图像，然后用透明像素填充。我需要这
java - 保持数据结构 View 一致
我有一个订单的Map，可以由许多不同的线程访问。我想控制访问，所以考虑以下简单的数据结构+包装器。 public interface OrderContainer { boolean cont
css - 我如何使我的导航与 Logo 一致？
我有以下代码，现在只是 div 中的一个 Logo ，但我正在尝试添加一些导航单元格，稍后我将对其进行样式设置。问题是，我似乎无法让它们与(除此之外) Logo “一致”，它们总是下降到下一行。我做错
java - 一致 UI 的设计模式
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
javascript - 使用种子值在刷新之间保持 d3-cloud 一致？
有没有办法将种子值传递给 d3-cloud 或其他基于 javascript 的标签云，以使其在页面加载之间保持一致？我们的客户希望使用标签云作为导航/发现辅助工具，但由于 d3-cloud 会在每
javascript - 路径长度变化时保持 stroke-dasharray 一致
我有一条由用户使用 D3.js 绘制的路径。我想在我的用户绘制路径上定义一个破折号数组，但是，随着它改变其形状和长度，破折号的行为不一致并且间隙在移动并变得越来越小。这是一个代码笔: https:
ios - UIStatusBar 风格与 UINavigationBar 一致
只是为了研究UINavigationBar和UIStatusBar的UI，我把Navigation Bar Style改成了Black，并且取消勾选Bar visibility，即Shows Navi
macos - 一致 "-repeat watch"不工作
我最近在我的家用机器 (OSX 10.9) 和我的远程服务器 (Ubuntu 12.04 64 位) 上安装了 unison。我在这两个地方都安装了 2.40.102 版本。我在我的 Mac 上使用
python - 测试数据库迁移结果是否与(ORM)一致？楷模
我正在使用 migrate 创建 SQL 数据库模式并用初始数据填充它。后来使用 SQLAlchemy 来处理这个数据库。我如何测试我的 SQLAlchemy 模型是否与 migrate 生成的真实
html - 图像与文本 HTML CSS 一致
道歉对这一切来说还是新鲜事。我正在创建一个网页，并在两个单独的 div 中将图像和文本并排放置。我已经设法将它们放在页面上我想要的位置，但是当我调整页面大小时，文本会调整大小，但图像不会。我希望文本底
cassandra - 为什么 Cassandra 不一致而 HBase 一致？
在翻阅Cassandra和HBase的阅读资料时，我发现Cassandra并不一致，但HBase是一致的。没有找到任何合适的阅读 Material 。有人可以提供有关此主题的任何博客/文章吗？最佳
objective-c - 如何计算文件夹的大小。 (此尺寸必须与 Finder 一致。)
我需要计算 MacOS 中文件夹的大小。该尺寸值必须与 Finder 一致。我尝试了几种方法来做到这一点。但结果总是与Finder不同。以下方法是我尝试过的。 typedef struct{
c++ - 如何保证 C++ 模板类特化之间的接口(interface)一致？
问:我可以使用 C++ 中的任何编译时机制来自动验证模板类方法集是否从类特化到特化相匹配？示例:假设我想要一个类接口(interface)，它根据模板值专门化具有非常不同的行为: // forwar
python - SelectKBest 与 GaussianNB 结果不精确/一致
我想使用 SelectKBest 选择前 K 个特征并运行 GaussianNB: selection = SelectKBest(mutual_info_classif, k=300) data_t
html - 有没有最好的方法来证明 h1 文本与其包含的 div 一致？
我想要一个位于页面中央的 div，其中包含一行(两个单词)的 h1 文本，并且该文本与 div 的长度对齐；意思是，字母留出空间(同时保持它们的大小)以占据 div 的整个宽度，并且不要超出 div。
php - 更新 Ubuntu 服务器错误后与 apache 一致
我试图更新我的服务器，所以我通过 ssh 运行以下命令: sudo do-release-upgrade 我收到以下错误: Errors were encountered while processi
opencv - 我如何计算 SVD 并验证第一个奇异值与最后一个奇异值的比率是否与 OpenCV 一致？
我想验证单应矩阵会给出好的结果，而这个 this answer 有答案 - 但是，我不知道如何实现答案。那么谁能推荐我如何使用 OpenCV 计算 SVD 并验证第一个奇异值与最后一个奇异值的比率是
ios - CocoaPod 规范不会与 0.36 一致
我最近更新到 cocoapods 0.36 并对内部规范做了一些更改，现在 podspec 不再有效。我用 0.35 验证了此规范的先前版本 (0.3.8)，但使用 0.36 失败。很明显 cocoa
ios - 滚动第二个 UITableView 与第二个 UITableView 一致
我有两个并排设置的 TableView ，我需要它们同时滚动。因此，当您滚动一个时，另一个也会同时滚动。我进行了一些搜索，但找不到任何信息，但我认为这一定是有可能的。我的 TableView 都连

首页

博学

6Ren·AI

商城

python - 使用 toPandas 时强制将 null 一致转换为 nan