gpt4 book ai didi

python - 如何将自定义停用词列表添加到 StopWordsRemover

转载 作者:太空狗 更新时间:2023-10-30 02:26:49 24 4
gpt4 key购买 nike

我在我的 pyspark 数据框上使用 pyspark.ml.feature.StopWordsRemover 类。它有 ID 和 Text 列。除了提供的默认停用词列表外,我还想添加自己的自定义列表以从字符串中删除所有数值。

我可以看到提供了一个方法来为这个类添加 setStopWords。我想我正在努力寻找使用此方法的正确语法。

from pyspark.sql.functions import *
from pyspark.ml.feature import *

a = StopWordsRemover(inputCol="words", outputCol="filtered")
b = a.transform(df)

上面的代码在过滤列中给出了预期的结果,但它只删除/停止了标准词。我正在寻找一种方法来添加我自己的自定义列表,其中包含我希望过滤的更多单词和数值。

最佳答案

你可以用这个来指定它:

stopwordList = ["word1","word2","word3"]

StopWordsRemover(inputCol="words", outputCol="filtered" ,stopWords=stopwordList)

小提示:

上述解决方案用我们提供的列表替换了原来的停用词列表。
如果除了现有/预定义的停用词之外还想添加自己的停用词,那么我们需要在将列表作为参数传递给 StopWordsRemover() 之前附加原始列表。我们转换为设置以删除任何重复项。

stopwordList = ["word1","word2","word3"] stopwordList.extend(StopWordsRemover().getStopWords())
stopwordList = list(set(stopwordList))#optionnal
StopWordsRemover(inputCol="words", outputCol="filtered" ,stopWords=stopwordList)

关于python - 如何将自定义停用词列表添加到 StopWordsRemover,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43623400/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com