gpt4 book ai didi

python - panda的DataFrame适合这个吗?

转载 作者:太空宇宙 更新时间:2023-11-03 16:27:42 25 4
gpt4 key购买 nike

让我们描述一下我的场景:

我正在尝试对给定示例集的多个 API 进行分析。因此,最后,我在脑海中想象如下:

二维表,其中每行是每个样本的名称,每列是每个 API 的名称。在每个表上,我最终都会有数量可变的键值对(例如,“dog”:0.9)。那么让我们举一个简单的例子

________________________________________________________________________
|row/column | API 1 | API 2 | API 3 | API 4 |
------------------------------------------------------------------------
|sample1 |{'dog':0.9, |{'cat':0.3, |{'dog':0.7, |{'cat':0.2, |
| |'animal': 0.8}|'mammal':0.4} |'mammal':0.3} |'animal':0.9}|
------------------------------------------------------------------------
|sample2 |{'sun':0.6, |{'sun':0.7, |{'wind':0.5, |{'sun':0.1, |
| |'beach': 0.3} |'water':0.7} |'water':0.2} |'wind':0.3} |
------------------------------------------------------------------------
|sample3 |{'tenis':0.9, |{'court':0.3, |{'court':0.7, |{'ball':0.2, |
| |'ball': 0.8} |'player':0.4} |'tennis':0.3} |'court':0.9} |
________________________________________________________________________

等等..

元素的数量不会总是 2...它可以从 0 到 N,但通常不会超过 3-4 个标签。

也就是说,之后我想对这些数据进行简单的计算,例如:

  • 所有 API 中出现的次数
  • 最大-最小分数
  • 仅出现在 API 中的标签

如您所见,没有什么真正复杂的。

我的问题是,作为 pandas 的菜鸟...DataFrame 是一个好方法吗?这样的数据排列是否可以,或者是否应该改变?

最佳答案

是的,您需要使用MultiIndex其中 index 级别包含 sample_idapi_id,然后有两列包含 tag 和关联的。然后,您可以使用 .groupby(level='api_id').value.max() 轻松运行统计信息。

这可能如下所示:

                   tag  value
sample_id api_id
1 1 tag1 1
2 1 tag2 2
3 1 tag3 3
4 2 tag1 1
5 2 tag2 2
6 2 tag3 3
7 2 tag4 1
8 2 tag5 2
9 2 tag6 3
10 3 tag1 1
11 3 tag2 2
12 3 tag3 3
13 3 tag4 1
14 3 tag5 2
15 4 tag1 3

关于python - panda的DataFrame适合这个吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37863410/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com