gpt4 book ai didi

python - 如果索引位于 3 个外部列表之一,如何通过条件计算 tfidf 向量的平均值?

转载 作者:行者123 更新时间:2023-12-01 08:38:28 24 4
gpt4 key购买 nike

我试图通过索引位于 3 个列表之一中来实现分组 tfidf 向量(Pandas DataFrame 的行)并计算分组行的平均值。情况:

list_A = [1,2,3]
list_B = [4,5]
list_C = [6]

pandas.DataFrame:
id word1 word2 word3
1 0.01 0.00 0.00
2 0.00 0.01 0.01
3 0.01 0.01 0.00
4 0.01 0.01 0.01
5 0.01 0.00 0.01
6 0.00 0.01 0.01

我无法使用 pandas.DataFrame.groupby() 函数,现在我有点迷失了。

最佳答案

您可以通过使用三个列表进行索引并按其分组来设置具有唯一标识符的新列:

df.loc[list_A, "class"] = "A"
df.loc[list_B, "class"] = "B"
df.loc[list_C, "class"] = "C"
df
# word1 word2 word3 class
# id
# 1 0.01 0.00 0.00 A
# 2 0.00 0.01 0.01 A
# 3 0.01 0.01 0.00 A
# 4 0.01 0.01 0.01 B
# 5 0.01 0.00 0.01 B
# 6 0.00 0.01 0.01 C

df.groupby("class").mean()
# word1 word2 word3
# class
# A 0.006667 0.006667 0.003333
# B 0.010000 0.005000 0.010000
# C 0.000000 0.010000 0.010000

请注意,这假设 id 是数据帧的索引,并且列表包含索引中的值(就像您的示例中的情况一样)。

关于python - 如果索引位于 3 个外部列表之一,如何通过条件计算 tfidf 向量的平均值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53598141/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com