gpt4 book ai didi

python - 使用 dask 为一列数据帧应用 json.loads

转载 作者:行者123 更新时间:2023-12-04 17:28:23 25 4
gpt4 key购买 nike

我有一个这样的数据框fulldb_accrep_united:

   SparkID  ...                                             Period
0 913955 ... {"@PeriodName": "2000", "@DateBegin": "2000-01...
1 913955 ... {"@PeriodName": "1999", "@DateBegin": "1999-01...
2 16768 ... {"@PeriodName": "2007", "@DateBegin": "2007-01...
3 16768 ... {"@PeriodName": "2006", "@DateBegin": "2006-01...
4 16768 ... {"@PeriodName": "2005", "@DateBegin": "2005-01...

我需要将 Period 列(现在是字符串列)转换为 json 值列。通常我用 df.apply(lambda x: json.loads(x)) 来做,但是这个数据框太大了,无法作为一个整体来处理。我想使用 dask,但我似乎错过了一些重要的东西。我想我不明白如何在 dask 中使用 apply,但我找不到解决方案。

代码

如果使用内存中所有 df 的 Pandas,我应该这样做:

#%% read df
os.chdir('/opt/data/.../download finance/output')
fulldb_accrep_united = pd.read_csv('fulldb_accrep_first_download_raw_quotes_corrected.csv', index_col = 0, encoding = 'utf-8')
os.chdir('..')

#%% Deleting some freaky symbols from column
condition = fulldb_accrep_united['Period'].str.contains('\\xa0', na = False, regex = False)
fulldb_accrep_united.loc[condition.values, 'Period'] = fulldb_accrep_united.loc[condition.values, 'Period'].str.replace('\\xa0', ' ', regex = False).values

#%% Convert to json
fulldb_accrep_united.loc[fulldb_accrep_united['Period'].notnull(), 'Period'] = fulldb_accrep_united['Period'].dropna().apply(lambda x: json.loads(x))

这是我尝试使用 dask 的代码:

#%% load data with dask
os.chdir('/opt/data/.../download finance/output')
fulldb_accrep_united = dd.read_csv('fulldb_accrep_first_download_raw_quotes_corrected.csv', encoding = 'utf-8', blocksize = 16 * 1024 * 1024) #16Mb chunks
os.chdir('..')

#%% setup calculation graph. No work is done here.
def transform_to_json(df):
condition = df['Period'].str.contains('\\xa0', na = False, regex = False)
df['Period'] = df['Period'].mask(condition.values, df['Period'][condition.values].str.replace('\\xa0', ' ', regex = False).values)

condition2 = df['Period'].notnull()
df['Period'] = df['Period'].mask(condition2.values, df['Period'].dropna().apply(lambda x: json.loads(x)).values)

result = transform_to_json(fulldb_accrep_united)

这里的最后一个单元格给出了错误:

NotImplementedError: Series getitem in only supported for other series objects with matching partition structure

我做错了什么?我花了近 5 个小时试图找到类似的主题,但我认为我遗漏了一些重要的东西,因为我是这个主题的新手。

最佳答案

你的问题太长了,我没看完。我很抱歉。参见 https://stackoverflow.com/help/minimal-reproducible-example

但是,根据标题,您可能希望将 json.loads 函数应用于数据框列中的每个元素

df["column-name"] = df["column-name"].apply(json.loads)

关于python - 使用 dask 为一列数据帧应用 json.loads,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61919178/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com