gpt4 book ai didi

python - 如何在sklearn中使用isolationforest中的文档向量

转载 作者:行者123 更新时间:2023-12-01 07:46:48 26 4
gpt4 key购买 nike

为了了解隔离森林的真正作用,我使用以下 8 个功能做了一个示例项目,如下所示。

from sklearn.ensemble import IsolationForest    
#features
df_selected = df[["feature1", "feature2", "feature3", "feature4", "feature5", "feature6", "feature7", "feature8"]]
X = np.array(df_selected)

#isolation forest
clf = IsolationForest(max_samples='auto', random_state=42, behaviour="new", contamination=.01)
clf.fit(X)
y_pred_train = clf.predict(X)

print(np.where(y_pred_train == -1)[0])

现在,我想使用隔离林来识别什么是离群文档。为此,我使用 gensim 训练了 doc2vec 模型。现在,对于数据集中的每个文档,我都有一个 300 维向量

我的问题是我可以立即使用isolation Forest中的文档向量作为上述代码中的X来检测异常值吗?或者我是否需要在将向量应用于隔离森林之前降低向量的维度?

如果需要,我很乐意提供更多详细信息。

最佳答案

您可以立即使用 predict() 来检测异常值,除非您计划删除一些训练模型中不会考虑的变量。

一般来说,我会说进行相关性分析并删除彼此高度相关的变量(逻辑基础是,如果它们高度相关,那么它们是相同的,不应该鼓励变量的偏差加倍考虑)。

请随意提出异议或陈述您的考虑因素,因为我认为以上确实是我对如何解决问题的看法。

关于python - 如何在sklearn中使用isolationforest中的文档向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56421404/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com