gpt4 book ai didi

python - MultiLabelBinarizer 不适用于具有多个数组的列

转载 作者:行者123 更新时间:2023-12-01 07:58:31 26 4
gpt4 key购买 nike

我有一列包含 15000 个数组。请从 15000 条记录中找到 2 条此类记录的样本。我想为 Genres_relevant 下的值创建虚拟值。

user Genres_relevant    
1 [2.0]
2 [3.0,2.0,1.0]

代码:

from sklearn.preprocessing import MultiLabelBinarizer
df=pd.DataFrame(users_list['Genres_relevant'])
mlb = MultiLabelBinarizer()
pd.DataFrame(mlb.fit_transform(df),columns=mlb.classes_, index=df.index)

预期输出

   1.0  2.0  3.0
1 0 1 0
2 1 1 1

错误:传递值的形状为 (12, 1),索引表示 (12, 15000)

最佳答案

pd.DataFrame(mlb.fit_transform(df['Genres_relevant']), columns=mlb.classes_, 
index=df.index)

当您拟合时,不要传递完整的数据帧,而是传递列。

关于python - MultiLabelBinarizer 不适用于具有多个数组的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55826200/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com