gpt4 book ai didi

tags - 如何从文本中提取关键字(标签)

转载 作者:行者123 更新时间:2023-12-04 15:46:00 25 4
gpt4 key购买 nike

我目前正在尝试在 Java 中实现标记引擎,并搜索从文本(文章)中提取关键字/标记的解决方案。我在 stackoverflow 上找到了一些建议使用 Pointwise Mutual Information 的解决方案。

Solution 1

Solution 2

我不能使用 pyton 和 nltk,所以我必须自己实现它。但我不知道如何计算概率。
方程如下所示:

PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]

我想知道的是如何计算 P(term, doc)

我已经有一个朗格文本语料库和一系列文章。这些文章不是语料库的一部分。语料库使用 lucene 进行索引。

请帮帮我。
最好的祝福。

最佳答案

有很多算法可以做到这一点:

开源工具:

kea(​​http://www.nzdl.org/Kea/) 监督方法使用训练数据和受控词汇

maui indexer(http://code.google.com/p/maui-indexer/) 它基本上是 kea 的扩展,它提供了使用百科全书提取关键短语的便利。

胡萝卜2(http://project.carrot2.org/)用于关键短语提取的无监督方法。它支持用于关键短语提取的输入、输出格式和参数的多种变化。

槌主题建模模块(http://mallet.cs.umass.edu/topics.php)

斯坦福主题建模工具 (http://nlp.stanford.edu/software/tmt/tmt-0.3/)

Mahout 聚类算法(http://mahout.apache.org/)

商业api:

炼金术 API( http://www.alchemyapi.com/api/keyword-extraction/ )

zemanta API( http://www.zemanta.com/developer/ )

雅虎词条提取api(http://developer.yahoo.com/contentanalysis/)

关于tags - 如何从文本中提取关键字(标签),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14339290/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com