python提取内容关键词的方法-6ren

python提取内容关键词的方法

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章python提取内容关键词的方法由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

本文实例讲述了python提取内容关键词的方法。分享给大家供大家参考。具体分析如下:

一个非常高效的提取内容关键词的python代码，这段代码只能用于英文文章内容，中文因为要分词，这段代码就无能为力了，不过要加上分词功能，效果和英文是一样的.

复制代码代码如下:

 
 # coding=UTF-8 
 
 import nltk 
 
 from nltk.corpus import brown 
 
 # This is a fast and simple noun phrase extractor (based on NLTK) 
 
 # Feel free to use it, just keep a link back to this post 
 
 # http://thetokenizer.com/2013/05/09/efficient-way-to-extract-the-main-topics-of-a-sentence/ 
 
 # Create by Shlomi Babluki 
 
 # May, 2013 
 
 # This is our fast Part of Speech tagger 
 
 ############################################################################# 
 
 brown_train = brown.tagged_sents(categories='news') 
 
 regexp_tagger = nltk.RegexpTagger( 
 
     [(r'^-?[0-9]+(.[0-9]+)?$', 'CD'), 
 
      (r'(-|:|;)$', ':'), 
 
      (r'\'*$', 'MD'), 
 
      (r'(The|the|A|a|An|an)$', 'AT'), 
 
      (r'.*able$', 'JJ'), 
 
      (r'^[A-Z].*$', 'NNP'), 
 
      (r'.*ness$', 'NN'), 
 
      (r'.*ly$', 'RB'), 
 
      (r'.*s$', 'NNS'), 
 
      (r'.*ing$', 'VBG'), 
 
      (r'.*ed$', 'VBD'), 
 
      (r'.*', 'NN') 
 
 ]) 
 
 unigram_tagger = nltk.UnigramTagger(brown_train, backoff=regexp_tagger) 
 
 bigram_tagger = nltk.BigramTagger(brown_train, backoff=unigram_tagger) 
 
 ############################################################################# 
 
 # This is our semi-CFG; Extend it according to your own needs 
 
 ############################################################################# 
 
 cfg = {} 
 
 cfg["NNP+NNP"] = "NNP" 
 
 cfg["NN+NN"] = "NNI" 
 
 cfg["NNI+NN"] = "NNI" 
 
 cfg["JJ+JJ"] = "JJ" 
 
 cfg["JJ+NN"] = "NNI" 
 
 ############################################################################# 
 
 class NPExtractor(object): 
 
     def __init__(self, sentence): 
 
         self.sentence = sentence 
 
     # Split the sentence into singlw words/tokens 
 
     def tokenize_sentence(self, sentence): 
 
         tokens = nltk.word_tokenize(sentence) 
 
         return tokens 
 
     # Normalize brown corpus' tags ("NN", "NN-PL", "NNS" > "NN") 
 
     def normalize_tags(self, tagged): 
 
         n_tagged = [] 
 
         for t in tagged: 
 
             if t[1] == "NP-TL" or t[1] == "NP": 
 
                 n_tagged.append((t[0], "NNP")) 
 
                 continue 
 
             if t[1].endswith("-TL"): 
 
                 n_tagged.append((t[0], t[1][:-3])) 
 
                 continue 
 
             if t[1].endswith("S"): 
 
                 n_tagged.append((t[0], t[1][:-1])) 
 
                 continue 
 
             n_tagged.append((t[0], t[1])) 
 
         return n_tagged 
 
     # Extract the main topics from the sentence 
 
     def extract(self): 
 
         tokens = self.tokenize_sentence(self.sentence) 
 
         tags = self.normalize_tags(bigram_tagger.tag(tokens)) 
 
         merge = True 
 
         while merge: 
 
             merge = False 
 
             for x in range(0, len(tags) - 1): 
 
                 t1 = tags[x] 
 
                 t2 = tags[x + 1] 
 
                 key = "%s+%s" % (t1[1], t2[1]) 
 
                 value = cfg.get(key, '') 
 
                 if value: 
 
                     merge = True 
 
                     tags.pop(x) 
 
                     tags.pop(x) 
 
                     match = "%s %s" % (t1[0], t2[0]) 
 
                     pos = value 
 
                     tags.insert(x, (match, pos)) 
 
                     break 
 
         matches = [] 
 
         for t in tags: 
 
             if t[1] == "NNP" or t[1] == "NNI": 
 
             #if t[1] == "NNP" or t[1] == "NNI" or t[1] == "NN": 
 
                 matches.append(t[0]) 
 
         return matches 
 
 # Main method, just run "python np_extractor.py" 
 
 def main(): 
 
     sentence = "Swayy is a beautiful new dashboard for discovering and curating online content." 
 
     np_extractor = NPExtractor(sentence) 
 
     result = np_extractor.extract() 
 
     print "This sentence is about: %s" % ", ".join(result) 
 
 if __name__ == '__main__': 
 
     main()

。

希望本文所述对大家的Python程序设计有所帮助.

最后此篇关于python提取内容关键词的方法的文章就讲到这里了,如果你想了解更多关于python提取内容关键词的方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： python通过pil将图片转换成黑白效果的方法

文章推荐： python实现获取客户机上指定文件并传输到服务器的方法

文章推荐： python生成随机mac地址的方法

文章推荐： python通过线程实现定时器timer的方法

.NET使用阻塞和返回；关键词
当我说这个 using (Entities db = new Entities()) { return db.TableName.AsQueryable().ToList(); } 因为返回了
algorithm - 如何从给定的文本中自动识别标签(关键词)？
它应该表现得像Delicious toolbar对于 Firefox 来说；它列出了可能要点击的标签。效果如下图: 代码应该能够找到文本的关键词。有什么好的算法或者开源项目推荐吗？我找到了 this
Android:我上传了我的第一个应用程序!关键词？
我刚刚在市场上上传了我的第一个应用程序。一切顺利，看起来很好。我尝试了几个关键词来搜索它，这些词在我的描述和促销文本中也有，但有些词找不到我的应用程序，有些却找到了。关键字策略如何在市场上的应用程序
git - Git 提交消息中的 Phabricator 关键词
我已经开始在我的提交消息中使用对 Maniphest 任务的引用，这对于自动关闭任务等非常有用。我发现这个页面有很多关键词，但我很好奇是否有更多或任何关于如何使用它们的文档。 https://pha
c++ - 为什么这个 Qt 示例使用地址而不是对象和函数本身？没有 SLOT/SIGNAL 关键词？
我在 Qt 文档中遇到过这段代码: Counter a, b; QObject::connect(&a, &Counter::valueChanged, &b, &C
iOS:这是 Audio Session 模拟器错误吗？关键词:kAudioSessionProperty_AudioRoute kAudioSessionUnsupportedPropertyError
有人可以确认这是否确实是一个错误吗？ (如果是这样，我将离开并将其提交给 Apple)。尝试获取 kAudioSessionProperty_AudioRoute 在 4.3 之前的任何版本的模拟器
iphone - Objective-C - 比 NSCaseInsensitiveSearch 更好的搜索？关键词？ NSPredicate？
目前我正在使用它来搜索我的词典数组(来自 plist 文件): for(NSDictionary *wine in mainArray) { NSString *wineNam

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python提取内容关键词的方法