gpt4 book ai didi

Lucene 项向量多元贝叶斯模型期望最大化

转载 作者:行者123 更新时间:2023-12-02 03:34:11 26 4
gpt4 key购买 nike

我正在尝试实现文档聚类的期望最大化算法。我计划使用 Lucene 术语向量来查找两个文档之间的相似性。使用朴素贝叶斯的 EM 算法有两种:多元模型和多项式模型。简单来说,多项式模型使用文档中不同单词的频率,而多元模型仅使用文档中是否存在单词的信息( bool 向量)。

我知道 Lucene 中的术语向量存储当前文档中存在的术语及其频率。这正是多项式模型所需要的。

但是多元模型需要以下内容:存储特定术语是否存在的向量。因此,所有文档中的所有术语都必须由该向量处理。

举个例子:

doc1:字段 CONTENT 具有以下术语:这是快乐的世界。

doc2:字段 CONTENT 具有以下术语:这个神奇的世界充满了讽刺的人。

现在我需要的向量应该是

<这是令人惊奇的充满讽刺的快乐世界>(它包含所有文档中的所有单词)

对于 doc1,该向量的值为 <1 1 1 1 1 1 0 0 0 0>

对于doc2,该向量的值是<1 1 0 1 0 0 1 1 1 1>

Lucene中有没有办法生成这样的 bool 向量?

最佳答案

我将首先生成多项式向量,然后处理它们(可能是它们的文本表示)以获得多元向量。

如果文档集不是很小,存储完整的向量是浪费的。您应该有一个稀疏表示,因为每个文档都包含可能术语的一小部分。

This blog post描述了从 Lucene/Solr 文档生成特征向量,尽管我认为它并没有比您已经做的更进一步。

关于Lucene 项向量多元贝叶斯模型期望最大化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5070554/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com