hadoop - 使用 Mapreduce 计算期望最大化的高斯混合模型

转载作者：可可西里更新时间：2023-11-01 15:02:49

25

4

在哪里可以找到使用 EM 计算 GMM 的 Mapreduce 实现(或教程)？
还有，用mapreduce框架真的可行吗？

我找到了这个讲座link但它不包含详细描述，如果我的数据(均值和方差)很大，那么我如何将它从映射器传递到缩减器？

最佳答案

OK，你说的，你有实现EM算法的经验。这很容易解释。

EM算法

如您所知，EM 算法是一种寻找最大似然的迭代方法。一次迭代由两个步骤组成，即期望(E-step)和最大化步骤(M-step)。

在E-step中，样本的可能性是根据之前的模型计算的。令n 为样本数，我们可以获得n 可能性。

这里，似然计算是独立进行的。所以这可以使用多处理器环境来执行。

假设我们在一台机器上有 4 个 CPU，n/4 可能性可以由每个 CPU 计算。快了 4 倍(忽略 IO 时间)

在M-step中，新模型由似然推导出来。

映射减少

计算EM

E-step 可以扩展到 mapreduce 上的 mapper 任务，因为样本彼此独立。
- 输入
  - 关键:任何东西
  - 值:样本
- 输出
  - 关键:任何东西
  - 值:输入样本的可能性
M-step 可以扩展到 reducer 任务(这可以是多个 reducer，但我只是推荐一个 reducer)。
- 输入
  - 关键:任何东西
  - 值:可能性
- 输出
  - 关键:任何东西
  - 值(value):下一个模型

数据表示

训练样本位于 HDFS 上的某个目录
- 这将是 mapreduce 的输入
之前的模型也位于HDFS，但与训练样本的目录不同
- 使用分布式缓存让映射器知道模型在哪里

迭代

一个 mapreduce 任务类似于 EM 算法的一次迭代。所以需要迭代下一个mapreduce任务，直到收敛

我已经简单解释过了。在实现过程中你会遇到很多问题。

希望对您有所帮助。

关于hadoop - 使用 Mapreduce 计算期望最大化的高斯混合模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23016670/

25

4

0

文章推荐： c++ - boost shared_ptr : difference between operator= and reset?

文章推荐： c++ - C++与QML之间的通信

文章推荐： c++ - 在 C++ 中，重写现有虚函数是否会破坏 ABI？

文章推荐： hadoop - 通过 HADOOP 解析 XML

J:高斯-乔丹消去法
编写求解线性代数方程组的高斯-乔丹方法的任务是我选择用来推进学习 J 的一项练习。系统为 Ax=b，其中 A 是 n-by-n 矩阵，b 和未知的 x 是 n-向量。首先，我从带有控制结构的最简单形式
matlab - 高斯-赛德尔法超过机器数？
祝大家新年快乐! :) 我正在 Matlab 中编写 Gauss-Seidel 函数，但遇到了一些问题。当精度达到 6 位小数时，迭代必须停止。这意味着x-xprevious的无限范数(要求使用它)
Python 曲线拟合，高斯
我正在尝试使用 scipy 和曲线拟合对我的数据进行高斯拟合，这是我的代码: import csv import numpy as np import matplotlib.pyplot as plt
c++ - 高斯-塞德尔法求解非线性方程
[已解决，谢谢] 我在 C++ 中开发了下面的代码来使用高斯-塞德尔方法求解线性方程，但我似乎在填充数组时在运行时遇到了一个我无法弄清楚的问题。这是我的代码... #include int main(
c++ - 高斯-若尔当消元法
我必须设计一种算法作为正向消元法的扩展，在矩阵上进行高斯约旦消元法。我的程序正在执行并创建数字的对角线，但它们并不都是 1。它也不会访问第一行和第一列以将它们更改为 0。最后一列，也就是答案所在的那一
c# - (高斯)滤波后归一化图像
我已经按照 Nixon Aguado 的算法实现了一个高斯滤波器。算法(找到此处描述的模板后 gaussian template )如下。我相信伪代码是 MATLAB 风格的。 function c
opencv - 应用平滑过滤器(双边、高斯、vs.)和色彩空间
在平滑图像时，我应该应用高斯和双边滤波器等哪种颜色空间版本(灰度、RGB、HSV 等)以获得最佳的去噪效果？是有一个总体趋势，还是在不同情况下会发生变化？此外，您建议在图像处理中使用什么滤镜和色彩空
java - 如何根据正态(高斯)分布对网格(矩阵)的单元格进行采样？
我需要根据 Java 中的正态分布对网格(MXN 矩阵)的单元格进行采样。我知道the Apache Math library具有对一维(1D)值进行采样的函数，因此对于 vector 来说很好，但
python - 如何用 Python 生成 2D 高斯？
我可以使用 random.gauss(mu, sigma) 函数生成高斯数据，但是如何生成二维高斯数据？有这样的功能吗？最佳答案如果你可以使用numpy，有numpy.random.multiva
opencv 图像滤波(均值,方框,高斯,中值)
为什么要使用滤波消除图像中的噪声成分叫作图像的平滑化或滤波操作。信号或图像的能量大部分集中在幅度谱的低频和中频段是很常见的，而在较高频段，感兴趣的信息经常被噪声淹没。因此一个能降低高频成分幅度的
c - mvnpdf 与常规正态(高斯)PDF - matlab/C
我正在执行高斯混合模型分类，并基于此，在 MATLAB 中使用“mvnpdf”函数。据我所知，该函数返回传递给它的数据点或元素的多变量概率密度。但是我试图在 C 上重新创建它，并且我假设 mvnp
python - 高斯 SVM 参数 C 和 gamma
I am using rbf,Support Vector machine for large training set=1135x9 matrix and test set{95x9}. I am
python - 使用 Scipy 与 ROOT 等拟合(高斯)
我现在多次偶然发现使用 scipy.curve_fit 在 python 中进行拟合比使用其他工具(例如根 ( https://root.cern.ch/ ) 例如，在拟合高斯分布时，使用 scipy
matlab - 在 MATLAB 中以一种颜色绘制 2D 高斯，但透明度级别不同
我想在 MATLAB 中绘制高斯波函数的二维表示。我希望 2D 图为一种颜色(绿色)，远离高斯中心变得透明。当我使用 imagesc 时(就像在下一个代码中一样)，我在黑色方 block 上得到了一
c++ - 如何创建包含(人工生成的)高斯(正态)分布的 vector ？
如果我有数据(每日股票图表是一个很好的例子，但它可以是任何东西)，其中我只知道 X 单位销售的范围(高 - 低)但我不知道确切的价格出售的任何给定元素。为简单起见，假设价格范围包含足够的桶(例如，40
python - 如何使用 OpenCV 在 Python 中添加噪声(高斯/盐和胡椒等)到图像
这个问题在这里已经有了答案: Impulse, gaussian and salt and pepper noise with OpenCV (10 个回答) 关闭6年前。我想知道 Python 中

首页

博学

6Ren·AI

商城

hadoop - 使用 Mapreduce 计算期望最大化的高斯混合模型

EM算法

映射减少

计算EM

数据表示

迭代