multithreading - 多核服务器上的 mongodb map reduce-6ren

multithreading - 多核服务器上的 mongodb map reduce

转载作者：可可西里更新时间：2023-11-01 09:11:01

31

4

我有一个包含数千条记录的 mongodb，其中包含非常长的向量。我正在使用某种算法寻找输入向量与我的 MDB 数据集之间的相关性。

伪代码:

function find_best_correlation(input_vector)
    max_correlation = 0
    return_vector = []
    foreach reference_vector in dataset:
        if calculateCorrelation(input_vector,reference_vector) > max_correlation then:
            return_vector = reference_vector
    return return_vector

这是 map-reduce 模式的一个很好的候选者，因为我不关心计算的运行顺序。

问题是我的数据库在一个节点上。我想同时运行多个映射(我有一个 8 核机器)

据我了解，MongoDb 每个节点只使用一个执行线程 - 实际上我是串行运行我的数据集。这是正确的吗？

如果可以，我可以配置每次 map-reduce 运行的进程/线程数吗？如果我管理多个并行运行 map-reduce 的线程，然后汇总结果，我的性能是否会大幅提高(有人试过吗)？如果不是 - 我可以在同一个节点上多次复制我的数据库并“欺骗”mongoDb 在 2 个复制上运行吗？

谢谢!

最佳答案

MongoDB 中的 Map reduce 使用单线程 Javascript 引擎 Spidermonkey，因此无法配置多个进程(也没有“技巧”)。有一张使用多线程 JS 引擎的 JIRA 票证，您可以在此处关注: https://jira.mongodb.org/browse/SERVER-2407

如果可能，我会考虑研究新的聚合框架(在 MongoDB 2.2 版中可用)，它是用 C++ 而不是 Javascript 编写的，并且可能会提供性能改进: http://docs.mongodb.org/manual/applications/aggregation/

关于multithreading - 多核服务器上的 mongodb map reduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11748872/

31

4

0

文章推荐： php - MongoDB 记录太多？

文章推荐： c# - NUnit 测试用例不是从继承类运行的

文章推荐： java - C2DM发送消息慢

multithreading - Lua-如何模拟 “multithreading”？
我有2个功能: function func1() while true do -- listen on connection end end function func2()
multithreading - clojure 是 "multithread"吗？
我的问题可能看起来很奇怪，但我想我正面临着 volatile 的问题。对象。我写了一个这样实现的库(只是一个方案，不是真正的内容): (def var1 (volatile! nil)) (def
multithreading - Maven Sonarqube 插件 : Multithreading
由于 maven 支持多线程构建，是否可以同时运行 Sonar 多线程？ (例如 mvn sonar:sonar -T 4 ) 我运行了它，当模块报告成功时，它报告整个构建失败并返回 java.uti
multithreading - Java : Running transaction in multithreaded environment
我们正在启动一个网站，该网站在短时间内的交易量非常大。它基本上是在给票。该代码是用Java，Spring和Hibernate编写的。我想通过产生多个线程并尝试使用JUnit测试用例来获取票证来模仿高容
multithreading - 虚幻引擎4 : Adapting ReadPixels() to a multithreaded framework
我正在尝试访问像素数据并将图像从游戏中的相机保存到磁盘。最初，简单的方法是使用渲染目标，然后使用RenderTarget-> ReadPixels()，但是由于ReadPixels()的 native
multithreading - Mahout优化: Multithreading TopItems. getTopUsers()和TopItems.getTopItems()
我们有以下系统: 用户数:〜500k 项目数:〜100k UserSimilarity userSimilarity = new TanimotoCoefficientSimilarity(dataM
multithreading - Spring 批处理 : problems (mix data) when converting to multithread
也许这是一个经常出现的问题，但我需要根据我的上下文进行一些自定义。我正在使用 Spring Batch 3.0.1.RELEASE 我有一个简单的工作，有一些步骤。一个步骤是这样的 block :
multithreading - Spring 批处理 : problems (mix data) when converting to multithread
也许这是一个经常出现的问题，但我需要根据我的上下文进行一些自定义。我正在使用 Spring Batch 3.0.1.RELEASE 我有一个简单的工作，有一些步骤。一个步骤是这样的 block :
multithreading - Python : multithreaded learning neural networks using PyBrain and Multiprocessing
我正在尝试使用PyBrain和Python的multiprocessing软件包在Python中训练神经网络。这是我的代码(它训练了一个简单的神经网络来学习XOR逻辑)。 import pybrai
multithreading - Adobe Air AS3 :How to run a function in workers_ Multithreading (by Workers)
我有一个繁重的功能，不适合在主时间轴上执行(因为要花很长时间才能完成并使程序崩溃)。因此我在air(as3)中搜索多线程，但是我发现的所有示例都说明了如何在worker中运行单独的swf文件。如何在
multithreading - Flutter Dart : How can we achieve multithreading like python or java in dart
我想实现线程A 和线程B 并行运行并共享全局变量。下面是用python编写的代码。我想在中执行相同操作Dart (我不想使用future等待，因为它正在等待其他线程完成或必须等待。) 大小写变量:
c++ - Visual Studio C++ "Multithreaded Debug DLL"与 "Multithreaded DLL"
我的一个项目只适用于调试 DLL，而不适用于非调试 DLL。在 Debug DLL 设置下发布项目有哪些注意事项？例如，是否丢失了某些优化？如何通过将调试版本设置为非调试 DLL 来调试此项目？我
multithreading - 线性系统求解器在 Julia 中是否也像在 Matlab 中一样是多线程的？以及如何在 Julia 中对其进行 "multithread"处理？
我正在尝试比较 Matlab 和 Julia 之间的速度和性能。我正在查看一个代码，该代码对承受给定负载的连续体结构进行拓扑优化。我正在查看的代码是公共(public)代码topopt88.m:htt
python - 引发 ValueError ("cannot have a multithreaded and multi process server.") ValueError : cannot have a multithreaded and multi process server
Serving Flask 应用程序“服务器”(延迟加载) 环境:生产警告:这是一个开发服务器。不要在生产部署中使用它。请改用生产 WSGI 服务器。 Debug模式:开启在 http://0.0.
multithreading - 如何通过调用另一个函数的QThread更新PyQT中的Progressbar
我对 PyQT 很陌生。我正在学习如何制作 Progressbar 并随着算法的进展对其进行更新。我已经能够制作一个使用此链接进行 self 更新的基本进度条:Python pyqt pulsing
multithreading - 将任务添加到特定线程的队列中
我正在尝试指定在特定线程上运行任务，这样我就可以使用两个专用于“放入” channel 的耗时任务的线程，而其他线程则用于处理该任务。我对如何将特定任务分配给特定线程感到困惑。我以为我可以使用类似
multithreading - QT多线程QImage改变
我正在编写一个软件，它对很多(潜在的大)图像进行大量图像操作/合成。多线程有助于提高速度，但 QT 不允许同时在同一图像上使用多个 QPainter。所以我必须在副本的每个线程中进行图像操作/合成
multithreading - 用数组请求多线程
此脚本读取 url 文件以执行多线程 HTTP 请求。如何使用带有 url 的数组来发出多线程请求？我的阵列将有类似的东西: @array = ("https://example.com/xsd"
multithreading - 构造函数中的过早泄漏
Java 文档声明了以下关于构造函数同步的内容: Note that constructors cannot be synchronized — using the synchronized keyw
multithreading - 调试核心文件时找到主线程
我有一个程序，其中主线程创建了很多线程。它崩溃了，我正在调试核心文件。崩溃发生在其中一个子线程中。为了找到原因，我需要知道主线程是否还活着。有什么方法可以找出哪个线程是初始线程？最佳答案 Is th

首页

博学

6Ren·AI

商城

multithreading - 多核服务器上的 mongodb map reduce