gpt4 book ai didi

Python NTL - 识别文本兴趣/主题

转载 作者:太空狗 更新时间:2023-10-30 01:59:13 25 4
gpt4 key购买 nike

我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:

"Enjoyed playing a game of football earlier."

将解析为顶级类别,例如:

"Sport".

我不确定我在这里尝试实现的目标的正确术语是什么,因此 Google 没有找到任何可能提供帮助的库。考虑到这一点,我的方法是这样的:

  1. 从文本中提取特征。使用标记对每个特征进行分类/识别名称/地点。可能为此使用 NTLK 或 Topia。
  2. 为每个兴趣类别(“体育”、“电子游戏”、“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性百分比。
  3. 确定哪个类别的准确率最高并对文本进行分类。

我的方法可能涉及为每个兴趣类别使用单独的语料库,我确信准确性会相当糟糕 - 我知道它永远不会那么准确。

通常会就我要完成的目标的可行性寻求一些建议,但我的问题的症结在于:a) 我的方法是否正确? b) 是否有任何图书馆/资源可以提供帮助?

最佳答案

您似乎知道很多正确的术语。尝试搜索“文档分类”。这是您要解决的一般问题。在代表性语料库上训练的分类器会比您想象的更准确。

  • (a) 没有一种正确的方法。您概述的方法将工作,但是。
  • (b) ScikitLearn对于这类工作来说是一个很棒的图书馆。

网上有很多关于此主题的其他信息,包括教程:

  • Naive Bayesian Classifier在 github 上可能已经做了大部分你想完成的事情。
  • NLTK tutorial深入解释主题。
  • 如果您真的想深入了解它,我相信 Google 学术搜索会找到数以千计的计算机科学和语言学领域的学术文章,这些文章恰恰是关于这个主题的。

关于Python NTL - 识别文本兴趣/主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17502580/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com