gpt4 book ai didi

python - 如何检查英语中单词的频率

转载 作者:行者123 更新时间:2023-12-03 07:55:51 25 4
gpt4 key购买 nike

我的问题:我想检查提供的单词是否是常见的英语单词。我正在使用pyenchant目前正在查看一个单词是否是一个实际单词,但我找不到其中返回单词频率/是否是常见单词的函数。

示例代码:

import enchant
eng_dict = enchant.Dict("en_US")

words = ['hello', 'world', 'thisisntaword', 'anachronism']
good_words = []

for word in words:
if eng_dict.check(word): # currently this checks if it's an english word, but I also want it to check it it's commonly used word
good_words.append(word)
print(good_words)

它返回的内容是:['hello', 'world', 'anachronism']。我希望它返回:['hello', 'world'] 因为不合时宜显然不是一个常见的词。

有什么办法可以解决我的问题吗?

最佳答案

您可以使用 Google Ngram API 来实现此目的:

url = "https://books.google.com/ngrams/json"

query_params = {
"content": <my_noun_phrase/string of noun phrases>,
"year_start": 2017,
"year_end": 2019,
"corpus": 26,
"smoothing": 1,
"case_insensitive": True
}
response = requests.get(url=url, params=query_params)

此 API 允许您访问 Google ngram 数据库的 v3,这是可用的最新版本。但请注意,该 API 没有正式记录,并且由于您很容易遇到速率限制,因此它不是生产证明。替代工具有 PhraseFinder ( https://phrasefinder.io/ ) 和 NGRAMS ( https://ngrams.dev/ )。 PhraseFinder 是 Google ngram 数据库 v2 的包装器; NGRAM 是同一数据库 v3 的包装器。它们都是免费的,并且可以处理比 Google API 更多的流量。

关于python - 如何检查英语中单词的频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76072637/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com