gpt4 book ai didi

nlp - 如何从一系列文本条目中提取常见/重要短语

转载 作者:行者123 更新时间:2023-12-03 05:34:08 25 4
gpt4 key购买 nike

我有一系列文本项 - 来自 MySQL 数据库的原始 HTML。我想找到这些条目中最常见的短语(不是单个最常见的短语,并且理想情况下不强制逐字匹配)。

我的示例是 Yelp.com 上的任何评论,其中显示了给定餐厅的数百条评论中的 3 个片段,格式为:

“尝尝汉堡”(共 44 条评论)

例如,本页的“评论亮点”部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了 NLTK,并且已经尝试了一下,但说实话,我对这些选项感到不知所措。这似乎是一个相当常见的问题,我无法通过此处搜索找到简单的解决方案。

最佳答案

我怀疑您不仅仅想要最常见的短语,还想要最有趣的搭配。否则,您最终可能会得到由常见单词组成的短语过多,而有趣且信息丰富的短语较少。

为此,您本质上需要从数据中提取 n 元语法,然后找到具有最高 point wise mutual information 的元语法。 (采购经理人指数)。也就是说,您希望找到同时出现的单词,而不是您期望它们偶然出现的情况。

NLTK collocations how-to涵盖了如何用大约 7 行代码来完成此操作,例如:

import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()

# change this to read in your data
finder = BigramCollocationFinder.from_words(
nltk.corpus.genesis.words('english-web.txt'))

# only bigrams that appear 3+ times
finder.apply_freq_filter(3)

# return the 10 n-grams with the highest PMI
finder.nbest(bigram_measures.pmi, 10)

关于nlp - 如何从一系列文本条目中提取常见/重要短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2452982/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com