gpt4 book ai didi

python - 根据列值随机抽样 Pandas

转载 作者:太空宇宙 更新时间:2023-11-03 13:31:47 30 4
gpt4 key购买 nike

我有文件(A、B、C 等),每个文件都有 12,000 个数据点。我已将文件分成 1000 个点的批处理并计算每个批处理的值。所以现在对于每个文件,我们有 12 个值,这些值被加载到 pandas 数据框中(如下所示)。

    file    value_1     value_2
0 A 1 43
1 A 1 89
2 A 1 22
3 A 1 87
4 A 1 43
5 A 1 89
6 A 1 22
7 A 1 87
8 A 1 43
9 A 1 89
10 A 1 22
11 A 1 87
12 A 1 83
13 B 0 99
14 B 0 23
15 B 0 29
16 B 0 34
17 B 0 99
18 B 0 23
19 B 0 29
20 B 0 34
21 B 0 99
22 B 0 23
23 B 0 29
24 B 0 34
25 C 1 62
- - - -
- - - -

下一步,我需要随机选择一个文件,并为该文件随机选择 value_1 的 4 个批处理序列。后来,我相信可以用 df.sample() 来完成,但我不确定如何随机选择文件。我试图让它与 np.random.choice(data['file'].unique()) 一起工作,但似乎不正确。

提前感谢您的帮助。总的来说,我对 Pandas 和 Python 还很陌生。

最佳答案

如果我理解您要达到的目的,以下内容应该会有所帮助:

# Test dataframe
import numpy as np
import pandas as pd


data = pd.DataFrame({'file': np.repeat(['A', 'B', 'C'], 12),
'value_1': np.repeat([1,0,1],12),
'value_2': np.random.randint(20, 100, 36)})
# Select a file
data1 = data[data.file == np.random.choice(data['file'].unique())].reset_index(drop=True)

# Get a random index from data1
start_ix = np.random.choice(data1.index[:-3])

# Get a sequence starting at the random index from the previous step
print(data.loc[start_ix:start_ix+3])

关于python - 根据列值随机抽样 Pandas ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46028283/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com