gpt4 book ai didi

python - 内置函数可以用spaCy获取一个单词的频率?

转载 作者:行者123 更新时间:2023-12-01 01:58:35 25 4
gpt4 key购买 nike

我正在寻找 NLTK 更快的替代方案来分析大型语料库并执行基本操作,例如计算频率、PoS 标记等...SpaCy 在很多方面看起来很棒并且易于使用,但我找不到任何内置的-例如,在函数中计算特定单词的频率。我查看了 spaCy 文档,但找不到直接的方法。我错过了什么吗?

我想要的是 NLTK 等价的:

tokens.count("word") #where tokens is the tokenized text in which the word is to be counted

在 NLTK 中,上面的代码会告诉我,在我的文本中,单词“word”出现了 X 次。

请注意,我已经使用了 count_by 函数,但它似乎没有达到我想要的效果。

最佳答案

我经常使用 spaCy 来计算语料库中的频率。这是我通常做的事情:

import spacy
nlp = spacy.load("en_core_web_sm")

list_of_words = ['run', 'jump', 'catch']

def word_count(string):
words_counted = 0
my_string = nlp(string)

for token in my_string:
# actual word
word = token.text
# lemma
lemma_word = token.lemma_
# part of speech
word_pos = token.pos_
if lemma_word in list_of_words:
words_counted += 1
print(lemma_word)
return words_counted


sentence = "I ran, jumped, and caught the ball."
words_counted = word_count(sentence)
print(words_counted)


关于python - 内置函数可以用spaCy获取一个单词的频率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49917033/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com