gpt4 book ai didi

python - 将特征哈希应用于 DataFrame 中的特定列

转载 作者:行者123 更新时间:2023-12-04 14:25:10 25 4
gpt4 key购买 nike

我对在 Python Pandas 中使用特征散列有点迷茫。

我有一个包含多个列的 DataFrame,其中包含许多不同类型的信息。一列代表数据的类别。

例子:

         col1   col2    colType
1 1 2 'A'
2 1 1 'B'
3 2 4 'C'

我的目标是为 ColType 应用 FeatureHashing,以便能够应用机器学习算法。

我为 colType 创建了一个单独的 DataFrame,具有如下内容:

                   colType  value
1 'A' 1
2 'B' 2
3 'C' 3
4 'D' 4

然后,对此类 Data Frame 应用特征哈希。但我不明白如何使用信息将特征哈希的结果添加到我的 DataFrame,以便将其用作机器学习算法的输入。

这就是我使用 FeatureHashing 的方式:

  from sklearn.feature_extraction import FeatureHasher
fh = FeatureHasher(n_features=10, input_type='string')
result = fh.fit_transform(categoriesDF)

如何将这个 FeatureHasher 结果插入到我的 DataFrame 中?我的方法有多糟糕?有没有更好的方法来实现我正在做的事情?

谢谢!

最佳答案

我知道这个答案来晚了,但我偶然发现了同样的问题并发现它有效:

fh = FeatureHasher(n_features=8, input_type='string')
sp = fh.fit_transform(df['colType'])
df = pd.DataFrame(sp.toarray(), columns=['fh1', 'fh2', 'fh3', 'fh4', 'fh5', 'fh6', 'fh7', 'fh8'])
pd.concat([df1, df], axis=1)

这会根据 FeatureHasher 检索到的稀疏矩阵创建一个数据帧,并将该矩阵连接到现有数据帧。

关于python - 将特征哈希应用于 DataFrame 中的特定列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47403696/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com