gpt4 book ai didi

Python 计算文本中的短语数

转载 作者:太空宇宙 更新时间:2023-11-03 14:01:20 25 4
gpt4 key购买 nike

我在 excel 中有一个产品评论/描述列表,我正在尝试根据评论中出现的单词使用 Python 对它们进行分类。

我使用 Pandas 将评论和表明产品属于特定分类的单词列表导入 Python,然后计算分类单词的出现次数。

这一切都适用于单个分类词,例如“计算机”,但我正在努力使其适用于短语,例如“笔记本电脑外壳”。

我已经浏览了一些答案,但没有一个对我来说是成功的,包括:

根据此处的答案,仅使用 text.count(['laptop case', 'laptop bag']):Counting phrase frequency in Python 3.3.2但是因为您需要将不起作用的文本分开(而且我认为 text.count 也不适用于列表?)

我找到的其他答案只看单个词的出现。我可以做些什么来计算不涉及将文本正文拆分为单个单词的单词和短语?

我目前拥有的代码(适用于个别条款)是:

for i in df1.index:
descriptions = df1['detaileddescription'][i]
if type(descriptions) is str:
descriptions = descriptions.split()
pool.append(sum(map(descriptions.count, df2['laptop_bag'])))
else:
pool.append(0)
print(pool)

最佳答案

您走在正确的轨道上!您目前正在拆分为单个单词,这有助于查找您指出的单个单词的出现。要查找长度为 n 的短语,您应该将文本拆分为长度为 n 的 block ,称为 n-grams

为此,请查看 NLTK package :

from nltk import ngrams
sentence = 'I have a laptop case and a laptop bag'
n = 2
bigrams = ngrams(sentence.split(), n)
for gram in bigrams:
print(gram)

关于Python 计算文本中的短语数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48885233/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com