python - 在 Pandas DataFrame 中保留 None(尽管有 astype() 和 to

python - 在 Pandas DataFrame 中保留 None(尽管有 astype() 和 to_parquet())

转载作者：行者123 更新时间：2023-12-04 10:07:48

25

4

如何强制 Pandas DataFrame 保留 None值，即使使用 astype() ?

细节

自 pd.DataFrame构造函数不提供化合物 dtype参数，我使用以下函数修复类型( to_parquet() 所需):

def _typed_dataframe(data: list) -> pd.DataFrame:
    typing = {
        'name': str,
        'value': np.float64,
        'info': str,
        'scale': np.int8,
    }    
    result = pd.DataFrame(data)
    for label in result.keys():
        result[label] = result[label].astype(typing[label])
    return result

不幸的是， result[info] = result[info].astype(str)全部转换 None info 中的值至 "None"字符串。我怎样才能禁止这个，即保留 None值(value)观？

更准确地说: None data 中的值成为 np.nan在 result DataFrame，变成 "nan"来自 astype(str) ，变成 "None"从 result 提取时.

最佳答案

按照@frosty 的评论，我们可以使用替代方法

    typing = {
        'name': str,
        'value': np.float64,
        'info': pd.StringDtype(),
        'scale': np.int8,
    }

但是，这需要 pandas ~= 1.0.0 .

作为更好的解决方案，您可以更换

for label in result.keys():
    result[label] = result[label].astype(typing[label])

经过

result.astype(schema)

不幸的是， result.astype(typing)没有效果，因为它不能处理复合类型。

关于python - 在 Pandas DataFrame 中保留 None(尽管有 astype() 和 to_parquet())，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61487396/

25

4

0

文章推荐： c# - 用于网站和 cms 身份验证的 .net 核心用户身份

文章推荐： python - form_Valid 函数在 Django 中是如何工作的？

文章推荐： mongodb - 用于标签搜索的 Mongoose 查询

pandas to_parquet 在大型数据集上失败
我正在尝试使用 Pandas to_parquet 保存一个非常大的数据集，当超过某个限制时，它似乎失败了，无论是“pyarrow”还是“fastparquet”。我使用以下代码重现了我遇到的错误，并
pandas df.to_parquet 写入多个较小的文件
是否可以使用 Pandas 的 DataFrame.to_parquet功能将写入拆分为一些近似所需大小的多个文件？我有一个非常大的 DataFrame (100M x 100)，并且正在使用 df
python - 使用 dask.dataframe.to_parquet() 进行分区时丢失索引信息
当我使用 dask=1.2.2 和 pyarrow 0.11.1 时，我没有观察到这种行为。更新后(dask=2.10.1 和 pyarrow=0.15.1)，当我使用带有给定 partition_o
python - 使用 pandas.DataFrame.to_parquet 控制行组
要将 Parquet 文件读入多个分区，应使用行组进行存储(请参阅 How to read a single large parquet file into multiple partitions u
python - Pyarrow 在使用 Pandas to_parquet() 时应用模式
我有一个非常宽的数据框(20,000 列)，主要由 Pandas 中的 float64 列组成。我想将这些列转换为 float32 并写入 Parquet 格式。我这样做是因为这些文件的下游用户是内存
python - dask.dataframe 的 to_parquet 支持服务器端加密吗？
我们公司要求对 S3 中的所有静态数据进行加密。通常当我们上传 s3 对象时，我们会做这样的事情: aws s3 cp a.txt s3://b/test --sse 我正在玩 dask.datafr
python - Dask DataFrame.to_parquet 读取 - 重新分区 - 写入操作失败
我有以下工作流程。 def read_file(path, indx): df = pd.read_parquet(path) df.index = [indx] * len(df)
python - Dask DataFrame.to_parquet 读取 - 重新分区 - 写入操作失败
我有以下工作流程。 def read_file(path, indx): df = pd.read_parquet(path) df.index = [indx] * len(df)
python - 当 S3 为目标时 pandas.DataFrame.to_parquet 失败
我有一个 Pandas 数据框，我正在尝试将其作为 Parquet 文件保存到 S3 中: dftest = pd.DataFrame({'field': [1,2,3]}) dftest.to_pa
python - 在 Pandas DataFrame 中保留 None(尽管有 astype() 和 to_parquet())
如何强制 Pandas DataFrame 保留 None值，即使使用 astype() ? 细节自 pd.DataFrame构造函数不提供化合物 dtype参数，我使用以下函数修复类型( to_p
python - Fastparquet 在使用 dataframe.to_parquet() 时给出 "TypeError: expected str, bytes or os.PathLike object, not _io.BytesIO"
我正在尝试为 AWS Lambda 创建代码以将 csv 转换为 parquet。我可以使用 Pyarrow 做到这一点，但它的大小太大(约 200 MB 未压缩)，因此我无法在 Lambda 的部署

首页

博学

6Ren·AI

商城

python - 在 Pandas DataFrame 中保留 None(尽管有 astype() 和 to_parquet())