- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
假设我在数据框中有分类特征。为了在数据帧上进行机器学习,我使用 OneHotEncoderEstimator()
对分类列进行一次热编码,然后使用 VectorAssembler()
将所有功能组装成一个柱子。读Spark时docs我已经看到使用 VectorIndexer()
来索引特征向量列中的分类特征。如果我在制定特征向量列之前已经对分类列执行了一项热编码,那么在其上应用 VectorIndexer()
是否有任何意义。
最佳答案
OneHotEncoder(Estimator)
和 VectorIndexer
是完全不同的野兽,并且不可互换。 OneHotEncoder(Estimator)
主要在下游流程使用线性模型 ( it can be also used with Naive Bayes ) 时使用。
让我们考虑一个简单的数据集
val df = Seq(1.0, 2.0, 3.0).toDF
和一个管道
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.feature._
val m1 = new Pipeline().setStages(Array(
new OneHotEncoderEstimator()
.setInputCols(Array("value")).setOutputCols(Array("features"))
)).fit(df)
如果这样的模型应用于我们的数据,它将是one-hot-encoded(取决于配置OneHotEncoderEstimator
支持one-hot-encoding和dummy编码) - 换句话说,每个级别,排除引用将是表示为单独的二进制列:
m1.transform(df).schema("features").metadata
org.apache.spark.sql.types.Metadata = {"ml_attr":{"attrs":{"binary":[{"idx":0,"name":"0"},{"idx":1,"name":"1"},{"idx":2,"name":"2"}]},"num_attrs":3}}
请注意,这种表示方法对于本地处理分类特征的算法来说效率低下且不切实际。
相比之下,VectorIndexer
仅分析数据,并相应地调整元数据
val m2 = new Pipeline().setStages(Array(
new VectorAssembler().setInputCols(Array("value")).setOutputCol("raw"),
new VectorIndexer().setInputCol("raw").setOutputCol("features")
)).fit(df)
m2.transform(df).schema("features").metadata
org.apache.spark.sql.types.Metadata = {"ml_attr":{"attrs":{"nominal":[{"ord":false,"vals":["1.0","2.0","3.0"],"idx":0,"name":"value"}]},"num_attrs":1}}
换句话说,它或多或少相当于 StringIndexer
的矢量化变体(您可以通过使用一组 StringIndexers
后跟 来实现类似的结果,并对输出进行更多控制VectorAssembler
)。
此类特征是 unsuitable for linear models ,但它们是决策树和树集成的有效输入。
总结 - 在实践中,OneHotEncoder(Esitmator)
和 VectorIndexer
是互斥的,应选择使用哪一个取决于下游流程。
关于scala - 使用一种热编码和向量汇编器与向量索引器来处理分类特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54222750/
我想要类似于以下伪代码的东西: while input is not None and timer = 5: print "took too long" else: print inp
如何将 MainEngine Observable 转换为 Cold?来自这个例子: public IObservable MainEngine { get
自从手表被发明以来,表盘的方圆之争就始终没有停下来过,在漫长的岁月中,无论是方形还是圆形表盘,人们都为其寻找到足够多的设计元素,让其肆意成长,这种生机与活力后来也延续到了智能手表上,在2014年,这
我正在学习 CUDA,试图解决一些标准问题。例如,我正在使用以下代码求解二维扩散方程。但我的结果与标准结果不同,我无法弄清楚。 //kernel definition __global__ void
我的 Web 应用程序使用 native dll 来实现其部分功能(其位置在 PATH 中提供)。一切正常,直到我对 WAR 进行更改并且 JBoss 热部署此 WAR。此时dll已经找不到了,需要手
我看到这个问题here 。这是关于实现每个发出的项目的延迟。这是根据accepted answer如何实现的: Observable.zip(Observable.range(1, 5) .g
我最近一直在进行冷迁移...这意味着我无法在进行迁移时从应用程序级别读取/写入数据库(维护页面)。 这样就不会因为更改结构而发生错误,而且如果负载很大,我也不希望 mysql 在迁移过程中崩溃。 我的
我是一名优秀的程序员,十分优秀!