gpt4 book ai didi

python-2.7 - 如何使用gensim将一组文档标记为unigram + bigram bagofwords?

转载 作者:行者123 更新时间:2023-12-02 03:30:48 24 4
gpt4 key购买 nike

我知道我可以使用 scikit learn,

vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2')

corpus = vectorizer.fit_transform(text)

这段代码。但是我怎么能用 gensim 做到这一点呢?

最佳答案

我想你可以看看 utils 中的 simple_preprocess

gensim.utils.simple_preprocess(doc, deacc=False, min_len=2, max_len=15) Convert a document into a list of tokens.

This lowercases, tokenizes, de-accents (optional). – the output are final

tokens = unicode 字符串,不会被进一步处理。

关于python-2.7 - 如何使用gensim将一组文档标记为unigram + bigram bagofwords?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26902048/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com