python - 使用 chunksize 选择数据但保持相同的顺序？-6ren

python - 使用 chunksize 选择数据但保持相同的顺序？

转载作者：太空宇宙更新时间：2023-11-03 16:23:29

29

4

下面是我使用 chunksize 从数据库中选择数据的程序。

# Give my large required list
subset = pd.read_csv(required_list, index_col=[0], low_memory=False).index.unique()

# give my large database, it would select data based on column name
tp = pd.read_csv(Database,iterator=True, chunksize=1000, usecols=subset, low_memory=False) 
df = pd.concat(tp, ignore_index=True)

df.to_csv(OutputFile,iterator=True, chunksize=1000)

但是当我运行程序时，输出文件中的数据顺序将会改变。

例如。

# Required_list, giving the column name that I want to select.
2
3
1

# Database
1 2 3 4 5  
a b c d e 

# OutputFile. The order is 1, 2, 3, not 2, 3, 1.
1 2 3 
a b c 

# But I want the output file to follow the same order as requried_list
2 3 1 
b c a

所以我的问题是，如何修改程序来选择数据，但仍保持与 required_list 相同的顺序？由于数据很大，所以需要使用iterator和chunksize函数。

有人可以帮忙吗？

最佳答案

你可以这样做:

df = pd.concat(tp, ignore_index=True)[subset]

pd.concat(tp,ignore_index=True) 返回一个数据帧，而 df[list_of_cools] - 返回一个数据帧，其中的列按 中的顺序排列list_of_cools 列表

关于python - 使用 chunksize 选择数据但保持相同的顺序？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38211468/

29

4

0

文章推荐： c# - 是否有任何事件告诉我进程正在等待输入？

文章推荐： Ruby 安装坏了

文章推荐： c# - 存储项目相关图片的好方法是什么？

python - 当 chunksize = 100 时，大(600 万行)pandas df 导致内存错误 `to_sql `，但可以轻松保存 100,000 个没有 chunksize 的文件
我在 Pandas 中创建了一个大型数据库，大约有 600 万行文本数据。我想将其保存为 SQL 数据库文件，但当我尝试保存它时，出现内存不足 RAM 错误。我什至将卡盘尺寸减小到 100，但它仍然崩
audio - WAV文件中的“ChunkSize”
我目前正在查看WAV文件的以下信息，并且遇到了其标题内包含的WAV文件的“ChunkSize”。但是，我无法理解ChunkSize的值是如何计算的。根据 http://tiny.systems/sof
光栅选项 : Difference between chunksize and maxmemory
我最近偶然发现了两种可能的 rasterOptions，它们可以提高 R 中光栅操作的性能:chunksize 和 maxmemory。然而我很困惑有什么区别。帮助页面指出: block 大小:在处理
python - 尝试使用 chunksize 迭代器除外
我想读取一个大的 csv 文件，所以我使用了 pandas 的 chunksize 方法迭代器。但是我得到了一个 ParserError 所以我想使用 try except 并且当我得到这个错误时我想
Python 多处理 imap chunksize
我想比较两个具有相同路径结构和所有子文件夹中相同文件的文件夹。该文件夹相当大，大小约为80GB，文件数量为8000个。我想确保两个顶级目录下的每个相应文件对具有相同的 md5 校验和值。我写了一个简
python - 使用 chunksize 选择数据但保持相同的顺序？
下面是我使用 chunksize 从数据库中选择数据的程序。 # Give my large required list subset = pd.read_csv(required_list, ind
python - Pandas Chunksize 迭代器
我有一个 1GB、70M 行的文件，每次我加载它时它都会耗尽内存。我已经阅读了 1000 行，并且能够制作出我希望它执行的原型(prototype)。我的问题是不知道如何获取接下来的 1000 行并
python - 使用 chunksize 迭代地获取推断的数据帧类型
How can I use pd.read_csv() to iteratively chunk through a file and retain the dtype and other meta-
python - chunksize 不是从 csv 文件的第一行开始
使用 Python 3。我有一个非常大的 CSV 文件，我需要将其拆分并保存到_csv。我使用 chunksize 参数来确定两个文件中我需要多少行。期望是第一个代码应该读取所需的行，以便我可以
Python 多处理 : why are large chunksizes slower?
我一直在使用 Python 的多处理模块分析一些代码('job' 函数只是数字的平方)。 data = range(100000000) n=4 time1 = time.time() process
python - 使用 pandas 中的 chunksize 参数提取每个值的基本计数
我有一个包含以下类别的 CSV 文件:item1、item2、item3、item4 其中值恰好是以下之一:0,1,2,3,4。我想为每个项目计算每个值有多少。我的代码如下，df是对应的DataFra
mongodb - 在 MongoDB 中配置 GridFS Chunksize
我目前正在研究使用 MongoDB 来存储电子邮件数据。因为电子邮件可能变得相当大(比如 10 兆)。我相信 GridFS 非常适合这个。让我有点害怕的是，文档对 gridFS 中的分片大小不是很清
python - "chunksize"multiprocessing.Pool.map 中的参数
例如，如果我有一个带有 2 个处理器的池对象: p=multiprocessing.Pool(2) 我想遍历目录中的文件列表并使用 map 函数谁能解释一下这个函数的 block 大小是多少: p.
R doAzureParallel 和 chunkSize。每个循环迭代是否有一个新的 R session ？
打算使用 Azure Batch 与 do AzureParallel 包并行运行 R。我打算保留默认的 chunkSize = 1。它是否会为 foreach() 循环的每次迭代启动一个新的 R
python - Pandas read_sql with chunksize 给出了 MySQL 数据的参数错误
我正在尝试将大型数据集(1300 万行)从 MySQL 数据库读取到 pandas (0.17.1) 中。按照在线建议之一，我使用了 chunksize 参数来执行此操作。 db = pymysql.
python - 带有 chunksize 选项的 pandas.read_csv 函数的奇怪索引机制
由于数据量巨大，我们使用pandas来处理数据，但是出现了一个很奇怪的现象。伪代码如下所示: reader = pd.read_csv(IN_FILE, chunksize = 1000, engin
python - 使用 chunksize 保存到新的 HDFStore 中迭代 HDFStore
我将所有数据都放入了 HDFStore(是的!)，但是如何从中取出数据.. 我在我的 HDFStore 中保存了 6 个数据帧作为 frame_table。这些表格中的每一个看起来如下所示，但长度各不
python - 带有 chunksize 参数的 pandas read_csv 会产生一个只能使用一次的迭代器？
我正在使用 pandas.read_csv 打开一个名为 file.dat 的文件。 file.dat 包含数亿行，因此它的大小超出了我的可用内存。该文件如下所示: 2.069921794968841
java - google app engine chunkSize & prefetchSize - 我在哪里可以阅读它的详细信息？
关于这两个总和的所有信息: chunkSize Sets the chunk size. Please read the class javadoc for an explanation of how
python - pandas.DataFrame.to_sql 中的最佳 chunksize 参数
使用需要转储到 PostgreSQL 表中的大型 pandas DataFrame。从我读过的内容来看，一次转储不是一个好主意，(我正在锁定数据库)而不是使用 chunksize范围。答案here对工

首页

博学

6Ren·AI

商城

python - 使用 chunksize 选择数据但保持相同的顺序？