gpt4 book ai didi

python - 逐个构建 DataFrame 的最快方法是什么?

转载 作者:太空宇宙 更新时间:2023-11-03 11:31:54 25 4
gpt4 key购买 nike

我正在从 bloomberg 下载价格数据,并希望以最快和最少内存占用的方式构建 DataFrame。假设我通过 python 向 bloomberg 提交了一个数据请求,以获取从 1-1-2000 到 1-1-2013 的所有当前标准普尔 500 股票的价格数据。数据按代码返回,然后是日期和值,一次返回一个。我目前的方法是为要存储的日期创建一个列表,并为要存储的价格创建另一个列表,并在从彭博数据请求响应中读取时将日期和价格附加到每个列表。然后,当读取特定代码的所有日期和价格时,我使用

为代码创建一个 DataFrame
ticker_df = pd.DataFrame(price_list, index = dates_list, columns= [ticker], dtype=float)

我为每个代码执行此操作,在读取每个代码数据后将每个代码数据帧附加到列表 << df_list.append(ticker_df) >>。制作完所有代码数据帧后,我将所有单独的数据帧组合成一个数据帧:

lg_index = []
for num in range(len(df_list)):
if len(lg_index) < len(df_list[num].index):
lg_index = df_list[num].index # Use the largest index for creating the result_df
result_df = pd.DataFrame(index= lg_index)
for num in range(len(df_list)):
result_df[df_list[num].columns[0]] = df_list[num]

我之所以这样做,是因为每个股票代码的指数都不相同(如果一只股票去年才首次公开募股,等等)

我猜想一定有更好的方法可以用更少的内存更快地完成我在这里所做的事情,我只是想不出。谢谢!

最佳答案

我不是 100% 确定你想要哪个,但你可以concat DataFrames 列表:

pd.concat(df_list)

例如:

In [11]: df = pd.DataFrame([[1, 2], [3, 4]])

In [12]: pd.concat([df, df, df])
Out[12]:
0 1
0 1 2
1 3 4
0 1 2
1 3 4
0 1 2
1 3 4

In [13]: pd.concat([df, df, df], axis=1)
Out[13]:
0 1 0 1 0 1
0 1 2 1 2 1 2
1 3 4 3 4 3 4

或进行外部合并/连接:

In [14]: df1 = pd.DataFrame([[1, 2]], columns=[0, 2])

In [15]: df.merge(df1, how='outer') # do several of these
Out[15]:
0 1 2
0 1 2 2
1 3 4 NaN

查看 merge, join, concatenate section of the docs .

关于python - 逐个构建 DataFrame 的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17152267/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com