- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为了了解隔离森林
的真正作用,我使用以下 8 个功能做了一个示例项目,如下所示。
from sklearn.ensemble import IsolationForest
#features
df_selected = df[["feature1", "feature2", "feature3", "feature4", "feature5", "feature6", "feature7", "feature8"]]
X = np.array(df_selected)
#isolation forest
clf = IsolationForest(max_samples='auto', random_state=42, behaviour="new", contamination=.01)
clf.fit(X)
y_pred_train = clf.predict(X)
print(np.where(y_pred_train == -1)[0])
现在,我想使用隔离林
来识别什么是离群文档。为此,我使用 gensim 训练了 doc2vec 模型。现在,对于数据集中的每个文档,我都有一个 300 维向量
。
我的问题是我可以立即使用isolation Forest
中的文档向量作为上述代码中的X
来检测异常值吗?或者我是否需要在将向量应用于隔离森林
之前降低向量的维度?
如果需要,我很乐意提供更多详细信息。
最佳答案
您可以立即使用 predict()
来检测异常值,除非您计划删除一些训练模型中不会考虑的变量。
一般来说,我会说进行相关性分析并删除彼此高度相关的变量(逻辑基础是,如果它们高度相关,那么它们是相同的,不应该鼓励变量的偏差加倍考虑)。
请随意提出异议或陈述您的考虑因素,因为我认为以上确实是我对如何解决问题的看法。
关于python - 如何在sklearn中使用isolationforest中的文档向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56421404/
我使用以下简单的IsolationForest算法来检测 20K 样本和 16 特征的给定数据集 X 的异常值,我运行以下 train_X, tesy_X, train_y, test_y = tra
我想使用 IsolationForest 来查找异常值。我想使用 GridSearchCV 找到模型的最佳参数。问题是我总是遇到同样的错误: TypeError: If no scoring is s
嘿,我正在使用sklearn.ensemble.IsolationForest ,预测我的数据的异常值。 是否可以根据我的干净数据训练(拟合)模型一次,然后保存以供以后使用?例如保存模型的一些属性,这
我正在尝试在 DataBrick 平台上安装 Isolation Forest 包。 databrick中spark的版本是3.1.1: print (pyspark.__version__) #3.
我是一名优秀的程序员,十分优秀!