gpt4 book ai didi

python - 即使没有 maxDF 参数,如何将 maxDF 设置为 pyspark.ml.feature.CountVectorizer?

转载 作者:太空宇宙 更新时间:2023-11-04 04:27:48 24 4
gpt4 key购买 nike

我的程序已经使用 pyspark.ml 包中的 CountVectorizer 运行良好。但是,这个 CountVectorizer 没有像 sklearn.feature_extraction.text 包中的 CountVectorizer 那样的 maxDF 参数,它删除了在文档列表中出现过于频繁的术语。有什么方法可以将其应用于 pyspark.ml 包中的 CountVectorizer?

最佳答案

maxDF Param 已包含在 Spark 2.4.0 中(尚未正式发布,但已可从 PyPi 和 Apache Foundation 文件中获取):

  • SPARK-23166 - 将 maxDF 参数添加到 CountVectorizer
  • SPARK-23615 - 将 maxDF 参数添加到 Python CountVectorizer

can be used as any other Param :

from pyspark.ml.feature import CountVectorizer

vectorizer = CountVectorizer(maxDF=99)

vectorizer = CountVectorizer().setMaxDF(99)

要使用它,您必须将 Spark 更新到 2.4.0 或更高版本,或者向后移植相应的 PR 和 build Spark from source .

关于python - 即使没有 maxDF 参数,如何将 maxDF 设置为 pyspark.ml.feature.CountVectorizer?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53201982/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com