- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
foreach (var doc in await records.Find(filter).ToListAsync())
{
var query = Builders<JobInfoRecord>.Filter.Eq("JobTypeValue", doc.JobTypeValue);
var updatedJobInfo = Regex.Replace(doc.SerializedBackgroundJobInfo, pattern, "<$1></$1>");
var update = Builders<JobInfoRecord>.Update.Set("SerializedBackgroundJobInfo", updatedJobInfo);
records.UpdateOneAsync(query, update).Wait();
}
这是更新文档的最佳方式吗(我将名称中包含 password
的 xml 字符串中的标签值更改为空标签: <adminPassword></adminPassword>
或 demo)?我正在使用 Mongo 驱动程序 2.0.2
我有一个 500 000
的收藏文件,其中我每分钟(希望如此)执行更新大约。 3000
文档。
如何提高 update
的性能操作?
最佳答案
按照您的方式更新时,您需要检索文档内容以便检查它并进行此类修改。 MongoDB 没有以您想要的方式作用于现有值的原子操作,因此当然需要迭代。
在语句的两个版本之间如何匹配正则表达式的“查询”部分没有真正的区别。无论如何,内容在发送到服务器之前都会转换为 BSON,因此如果您使用标准表达式构建器或直接 BSON 文档,影响不大。
但是关于可以进行的性能改进。
如前所述,批量操作是您应该更新此类列表迭代的方式,并且您还“应该”使用游标而不是将所有结果转换为列表,因为它会节省内存。
避开所有特定类型声明并仅表示为 BsonDocument
(这可能会节省您的编码时间,但不是必需的)那么基本示例过程将是:
var pattern = @"(?si)<([^\s<]*workUnit[^\s<]*)>.*?</\1>";
var filter = Builders<JobInfoRecord>.Filter.Regex(x => x.SerializedBackgroundJobInfo,
new BsonRegularExpression(pattern, "i"));
var ops = new List<WriteModel<BsonDocument>>();
var writeOptions = new BulkWriteOptions() { IsOrdered = false };
using ( var cursor = await records.FindAsync<BsonDocument>(filter))
{
while ( await cursor.MoveNextAsync())
{
foreach( var doc in cursor.Current )
{
// Replace inspected value
var updatedJobInfo = Regex.Replace(doc.SerializedBackgroundJobInfo, pattern, "<$1></$1>");
// Add WriteModel to list
ops.Add(
new UpdateOneModel<BsonDocument>(
Builders<BsonDocument>.Filter.Eq("JobTypeValue", doc.JobTypeValue),
Builders<BsonDocument>.Update.Set("SerializedBackgroundJobInfo", updatedJobInfo)
)
);
// Execute once in every 1000 and clear list
if (ops.Count == 1000)
{
BulkWriteResult<BsonDocument> result = await records.BulkWriteAsync(ops,writeOptions);
ops = new List<WriteModel<BsonDocument>>();
}
}
}
// Clear any remaining
if (ops.Count > 0 )
{
BulkWriteResult<BsonDocument> result = await records.BulkWriteAsync(ops,writeOptions);
}
}
因此,您不必为从查询中检索到的每个文档向数据库发出请求,而是创建一个 WriteModel
的 List
代替操作。
一旦这个列表增长到一个合理的值(在本例中为 1000),您就可以在单个请求和所有批处理操作的响应中将写入操作提交给服务器。这里我们使用BulkWriteAsync
.
如果愿意,您可以创建大于 1000 的批处理,但通常这是一个合理的处理数量。唯一真正的硬限制是 16MB 的 BSON 限制,因为所有请求实际上仍然是 BSON 文档,所以这仍然适用。无论如何,接近 16MB 需要很多请求,但是在请求实际到达服务器时如何处理请求时,还需要考虑阻抗匹配,as documented :
"Each group of operations can have at most 1000 operations. If a group exceeds this limit, MongoDB will divide the group into smaller groups of 1000 or less. For example, if the bulk operations list consists of 2000 insert operations, MongoDB creates 2 groups, each with 1000 operations."
因此,通过将请求大小保持在与服务器处理方式相同的水平,您还可以从 yield
中获益,其中“多个批处理”实际上可以并行连接到服务器,而不是让服务器进行拆分和排队。
返回结果为BulkWriteResult
它将包含有关发送的操作批处理中“匹配项”和“修改项”等数量的信息。
自然地,由于操作是“分批”的,因此在循环迭代结束时检查列表中是否还有更多“分批”操作是有意义的,然后当然以相同的方式提交。
还注意到 IsOrdered = false
为 BulkWriteOptions
意味着这批操作实际上并不是按串行顺序执行的,这意味着服务器实际上可以“并行”运行任务。这可以在不需要 promise 顺序的情况下做出“巨大”的速度改进。默认是提交“有序”和串行。
这不是设置此选项所必需的,但是如果您的命令不重要(在这种情况下不应该重要,因为这里没有其他操作请求依赖于文档的先前修改)那么您获得的改进是值得的.
这一切都是为了“减少”对服务器发出的实际请求的数量。发送更新和等待响应需要时间,而且在大型操作中是一项非常昂贵的操作。这就是批量操作要处理的问题,通过在一个请求中应用多个操作。
减少开销是“巨大的”性能提升。这就是您使用它的原因。
关于c# - 如何提高 Mongo 更新操作的性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36130102/
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表,每张工作表都有相同的 19 列。行数每天都不同,但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
我有一个对象数组,我一次循环遍历该数组一个对象,然后进行几次检查以查看该数组中的每个对象是否满足特定条件,如果该对象满足此条件,则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator,Qt 的 64 位 MSVC2013 编译版本。 我使用非常困倦的 CS 来分析我的应用程序,我看到占用最多独占时间
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
有一个优化问题,我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。 它是一个基于 Web 的 Asp.Net 应用程序。 数据访问层使用 NHibernate 1.2 构建并作为 WCF
我在我的 Intel Edison 上运行 Debian,并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
我有一个带有非规范化架构(1 个表)的 postgresql 数据库,其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
在 Ltac 中实现复杂的策略时,有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。 更高级别引发的故障“逃避”周
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
我有一个 ClojureScript 程序,主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的,因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中,这些连接中的每一个都将连接到一个离散的服务器,但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。 我的程序使用 A
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组,点云中的每个点都使用 4 个浮点存储,其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
更新 显然,jQuery 模板可以被编译,并且它有助于显示带有 if 语句 的模板的性能 here . 但是如图here ,预编译的 jQuery 模板对我的情况没有多大作用,因为我的模板不包含逻辑
我是编程新手。我有一个启用分页的 ScrollView ,其中包含许多页面(最多十个),并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder
我是一名优秀的程序员,十分优秀!