gpt4 book ai didi

python - 使用 chunksize 选择数据但保持相同的顺序?

转载 作者:太空宇宙 更新时间:2023-11-03 16:23:29 29 4
gpt4 key购买 nike

下面是我使用 chunksize 从数据库中选择数据的程序。

# Give my large required list
subset = pd.read_csv(required_list, index_col=[0], low_memory=False).index.unique()

# give my large database, it would select data based on column name
tp = pd.read_csv(Database,iterator=True, chunksize=1000, usecols=subset, low_memory=False)
df = pd.concat(tp, ignore_index=True)

df.to_csv(OutputFile,iterator=True, chunksize=1000)

但是当我运行程序时,输出文件中的数据顺序将会改变。

例如。

# Required_list, giving the column name that I want to select.
2
3
1

# Database
1 2 3 4 5
a b c d e

# OutputFile. The order is 1, 2, 3, not 2, 3, 1.
1 2 3
a b c

# But I want the output file to follow the same order as requried_list
2 3 1
b c a

所以我的问题是,如何修改程序来选择数据,但仍保持与 required_list 相同的顺序?由于数据很大,所以需要使用iteratorchunksize函数。

有人可以帮忙吗?

最佳答案

你可以这样做:

df = pd.concat(tp, ignore_index=True)[subset]

pd.concat(tp,ignore_index=True) 返回一个数据帧,而 df[list_of_cools] - 返回一个数据帧,其中的列按 中的顺序排列list_of_cools 列表

关于python - 使用 chunksize 选择数据但保持相同的顺序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38211468/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com