gpt4 book ai didi

python - 将 dask 数据帧保存到 csv 时如何纠正错误?

转载 作者:太空宇宙 更新时间:2023-11-04 02:00:09 25 4
gpt4 key购买 nike

当我尝试将 dask 数据帧保存到 csv 时,我不断收到错误消息。简而言之,我有一个由 10 列和 20 行组成的 pandas df,然后我加载了一个 350 列和 6+ 百万行(~6GB)的 dask df。我需要在 pandas df 上做一个相当简单的左连接。完成该连接后,我使用 final.dtypes 查看了最终 dask df 的数据类型,它显示了 12 列,正如我所希望的那样。但是,当我尝试将名为 final 的 dask df 转换为 .csv 时,我不断收到一个错误,该错误引用 dask_df 中的列,即使它们不在最终表中.这是怎么回事,我该如何纠正?如有必要,我可以提供示例数据。

错误信息:

Usually this is due to dask's dtype inference failing, and
*may* be fixed by specifying dtypes manually by adding:
dtype={'Authorized Official Telephone Number': 'object',
'Other Provider Identifier Issuer_33': 'object',
'Other Provider Identifier Issuer_34': 'object',
'Other Provider Identifier Issuer_35': 'object',
'Other Provider Identifier Issuer_36': 'object',
'Other Provider Identifier Issuer_37': 'object',
'Other Provider Identifier Issuer_39': 'object',
'Other Provider Identifier Issuer_40': 'object',
'Other Provider Identifier Issuer_41': 'object',
'Other Provider Identifier Issuer_42': 'object',
'Other Provider Identifier Issuer_43': 'object',
'Other Provider Identifier Issuer_44': 'object',
'Other Provider Identifier Issuer_45': 'object',
'Other Provider Identifier Issuer_46': 'object',
'Other Provider Identifier Issuer_47': 'object',
'Other Provider Identifier Issuer_48': 'object',
'Other Provider Identifier Issuer_49': 'object',
'Other Provider Identifier_37': 'object',
'Other Provider Identifier_48': 'object',
'Other Provider Identifier_49': 'object',
'Provider Business Mailing Address Fax Number': 'object',
'Provider Business Practice Location Address Fax Number': 'object'}

to the call to `read_csv`/`read_table`.

我的代码:

import dask.dataframe as dd
import pandas as pd

pandas_df = dd.read_csv('small_table.csv')

dask_df = dd.read_csv('npidata_pfile_20050523-20190407.csv',low_memory=False,dtype=str)

final= dd.merge(pandas_df, dask_df[['NPI','Provider First Name']], how='left', left_on='Physician NPI',right_on='NPI')

final.to_csv('e.csv')

最佳答案

您正在传递 dtype=str,但我认为也许您应该传递 dtype=object,Pandas 使用它来表示真正的任何非数字数据。

dask.dataframe.read_csv 函数给您一条错误消息,鼓励您使用 dtype=object。它实际上为您提供了完整的 dtype={...} 指令,您可以将其传入以使错误消息中的内容正常工作。

关于python - 将 dask 数据帧保存到 csv 时如何纠正错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55876049/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com