gpt4 book ai didi

machine-learning - 多语言文本垃圾邮件检测

转载 作者:行者123 更新时间:2023-11-30 09:21:20 25 4
gpt4 key购买 nike

许多技术可以用来检测特定语言的垃圾邮件,如果采用适当的技术,可以使系统能够检测多种语言的垃圾邮件,但这需要单个文本是特定语言的。

所以我的问题是如何检测由多种语言组成的文本?这不仅仅是语言检测。我想了解一些进行多语言文本垃圾邮件检测的最佳实践。

最佳答案

如果您尝试进行多语言文本垃圾邮件检测,可能的方法是使用 PorterStemmer()

使用 WordLemmatizer() 可能会给你一个错误(因为单词必须是英文),另一方面,保留它,因为它会影响你的模型性能。

这是一个例子:

from nltk.stem import PorterStemmer
from nltk.tokenize import RegexpTokenizer

stemmer = PorterStemmer()

test = "Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat"
print(test)

def word_stemmer(words):

words = words.split(" ")
stem_words = [stemmer.stem(i) for i in words]
return " ".join(stem_words)

print(word_stemmer(test))

Here's what the output looks like

关于machine-learning - 多语言文本垃圾邮件检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36842577/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com