Lucene 项向量多元贝叶斯模型期望最大化-6ren

Lucene 项向量多元贝叶斯模型期望最大化

转载作者：行者123 更新时间：2023-12-02 03:34:11

26

4

我正在尝试实现文档聚类的期望最大化算法。我计划使用 Lucene 术语向量来查找两个文档之间的相似性。使用朴素贝叶斯的 EM 算法有两种:多元模型和多项式模型。简单来说，多项式模型使用文档中不同单词的频率，而多元模型仅使用文档中是否存在单词的信息( bool 向量)。

我知道 Lucene 中的术语向量存储当前文档中存在的术语及其频率。这正是多项式模型所需要的。

但是多元模型需要以下内容:存储特定术语是否存在的向量。因此，所有文档中的所有术语都必须由该向量处理。

举个例子:

doc1:字段 CONTENT 具有以下术语:这是快乐的世界。

doc2:字段 CONTENT 具有以下术语:这个神奇的世界充满了讽刺的人。

现在我需要的向量应该是

<这是令人惊奇的充满讽刺的快乐世界>(它包含所有文档中的所有单词)

对于 doc1，该向量的值为 <1 1 1 1 1 1 0 0 0 0>

对于doc2，该向量的值是<1 1 0 1 0 0 1 1 1 1>

Lucene中有没有办法生成这样的 bool 向量？

最佳答案

我将首先生成多项式向量，然后处理它们(可能是它们的文本表示)以获得多元向量。

如果文档集不是很小，存储完整的向量是浪费的。您应该有一个稀疏表示，因为每个文档都包含可能术语的一小部分。

This blog post描述了从 Lucene/Solr 文档生成特征向量，尽管我认为它并没有比您已经做的更进一步。

关于Lucene 项向量多元贝叶斯模型期望最大化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5070554/

26

4

0

文章推荐： python-3.x - python3 中 dateutil.parser 的替代品是什么？

文章推荐： java - 如何对输入使用忽略大小写语句

文章推荐： java - 指定二进制转换的位数

文章推荐： spring - 两个 Spring Boot 项目都带有 @SpringBootApplication

c++ - 最大化 AND
给定一个包含 n 个非负整数的数组:A1、A2、...、AN。如何找到一对整数 Au, Av (1 ≤ u ans) { ans=arr[i] & arr[j
cocoa - NSWindow 最大化？
有人知道这段代码的正确解决方案吗？ BOOL maximized = [myWindow isMaximized]; 最佳答案也许看看 isZoomed 关于cocoa - NSWindow 最大化
MySQL CPU 最大化
当前有一个 MySQL 数据库，但遇到 MySQL 以 600% CPU 使用率运行的问题。规范: 2.3 GHz Intel Xeon® E5-2686 v4 (Broadwell) 处理器或 2
c# - 最大化/最小化外部应用程序
我已将 Skype 配置为在 Windows 启动时最小化启动。现在我需要通过全屏应用程序按钮中的一个按钮将 Skype 置于最前面。我有这段代码: For Each p As Proces
c# - 最大化/最小化其他应用程序
我已经有一段时间没有做任何生疏的程序了。我正在研究代码以最大化和最小化其他应用程序。所以我找到了一些基本的东西，这就是我所拥有的，对原来的东西稍作修改。它希望我生成一些我所做的 FindWindow
c++ - 最小化后窗口不显示(最大化)
我有一个 Windows CE 应用程序，它记录移动设备的击键。有一个用于初始化录制功能的按钮，它通过调用强制主窗口最小化: ShowWindow (hWnd, SW_MINIMIZE); 在最小化窗
android - 最大化 AlertDialog？
我想显示一个占据尽可能多屏幕空间的对话框。所以，这是一个示例: AlertDialog dialog = new AlertDialog.Builder(ctx)......create(); Wi
Ubuntu程序窗口中更改关闭/最大化/最小化按钮位置的方法
对Wndows用户来说，最小化/最大化/关闭按钮放在系统窗口的右上角是肯定的。而大多数朋友都是成为Wndows用户之后才成为Ubuntu用户的，因此Ubuntu程序窗口中将这些按键放在左上角使用起来
将ubuntu的最小化,最大化,关闭按钮改回右边的步骤
1.Ctrl+Alt+T调出终端 2.首先安装gconf-editor: sudo apt-get install gconf-editor 会提示叫你安装 gconf-editor 安装完成
wpf - 最大化 WPF 不会更新宽度？
Width最大化窗口时，屏幕的属性似乎没有更新到完全最大化的宽度。如果我调整它的大小，一切正常，但在最大化时就不行。我的代码如下: private void Window_SizeChanged(o
angularjs - 最大化 $digest 迭代
我正在这个 fiddle 中使用指令和 = 绑定(bind)。我收到以下错误: Uncaught Error: 10 $digest() iterations reached. Aborting! W
eclipse - 最大化 Eclipse 快捷方式中的代码选项卡
是否有任何快捷方式可以最大化您在 Eclipse 中使用的选项卡？假设我正在处理代码的一部分，并且我想最大化选项卡而不是使用鼠标双击它，有人知道一种方法吗？最佳答案 CtrlM 将最大化/恢复编辑器
java - 最大化 24 小时格式的数字。
在 Glassdoor 评论中遇到这个问题，觉得很有趣。 Given an integer consisting of 4 digits, we need to maximize it in 24 h
forms - 单击“最大化”按钮后如何重新绘制表单？
在 VB6 中，我创建了一个带有一些文本框、列表框和命令按钮的表单。我使用类似的方法设置所有这些控件的 X-Y 位置 control2.Top = form.Height * 0.50 'set
java - 最大化 JFrame 窗口的不同方式？
到处都有人告诉我使用这个: frame.setExtendedState(JFrame.MAXIMIZED_BOTH); 但问题是我的 JMenuBar 时断时续地消失(发生在我身上的奇怪错误)，并且
Java 窗口事件 - 最大化。如何硬编码？
我有一个 JDesktopPane 和一个 JInternalFrame。我希望 JInternalFrame 在创建后自动最大化。如何对“最大化窗口”事件进行硬编码？最佳答案使用JInterna
java - 最大化 JFrame |无全屏
这个问题已经有答案了: JFrame doesn't take the actual screen size (2 个回答) 已关闭 3 年前。我想最大化我的 JFrame，就像按下“关闭”旁边的按
python - 最大化 vim 的快速修复窗口？
我正在使用 vim 和 python 编程，并使用 tpope's vim-dispatch通过运行当前文件 :Dispatch python main.py 程序的打印输出被定向到quickfix窗
Swift 向上舍入/最大化 NSDecimalNumber
假设我们有一个名为 total 的 NSDecimal 常量，它包含 3.33333333 除以 10/3 的值。 10 和 3 都是NSDecimalNumber。我们希望 Swift 中的 NSD
java - 最大化 JFrame on action？
有谁知道如何在发生特定操作后最大化 JFrame？我将在下面发布我的代码，我是一个不评论我的代码的恶魔(我会在某个时候这样做)但它应该是相当 self 解释的。我试图做的是在从菜单中选择选项后使框架最

首页

博学

6Ren·AI

商城

Lucene 项向量多元贝叶斯模型期望最大化