- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
嘿嘿。
我正在使用 Node.JS
和 child_process
来生成 bash 进程。我试图了解我是否正在执行 I/O 绑定(bind)、CPU 绑定(bind)或两者兼而有之。
我正在使用 pdftotext提取 10k+ 文件的文本。为了控制并发,我使用 async .
代码:
let spawn = require('child_process').spawn;
let async = require('async');
let files = [
{
path: 'path_for_file'
...
},
...
];
let maxNumber = 5;
async.mapLimit(files, maxNumber, (file, callback) => {
let process = child_process.spawn('pdftotext', [
"-layout",
"-enc",
"UTF-8",
file.path,
"-"
]);
let result = '';
let error = '';
process.stdout.on('data', function(chunk) {
result += chunk.toString();
});
process.stderr.on('error', function(chunk) {
error += chunk.toString();
});
process.on('close', function(data) {
if (error) {
return callback(error, null);
}
callback(null, result);
});
}, function(error, files) {
if (error) {
throw new Error(error);
}
console.log(files);
});
我正在监控我的 Ubuntu 使用情况,当我运行程序时我的 CPU 和内存都非常高,而且有时我看到一次只处理一个文件,这正常吗??可能是什么问题??
我正在尝试理解 child_process 的概念。 pdftotext
是 Node.JS
的子进程吗?所有子进程都只在一个核心中运行?还有,我怎样才能让我的电脑更软处理这些文件?
glancer 的酷图:
Node.JS 的这种用法是因为 child_process 的吗??
谢谢。
最佳答案
如果您的作业需要 CPU,那么要运行的最佳作业数通常是内核数(如果 CPU 具有超线程,则为内核数的两倍)。因此,如果您有一台 4 核机器,您通常会通过并行运行 4 个作业来获得最佳速度。
但是,现代 CPU 严重依赖缓存。这使得很难预测并行运行的最佳作业数量。加上磁盘的延迟,这会使它变得更加困难。
我什至见过系统上的作业,其中内核共享 CPU 缓存,并且一次运行单个作业速度更快 - 仅仅是因为它可以使用完整的 CPU 缓存。
由于那次经历,我的建议一直是:衡量。
因此,如果您要运行 10k 个作业,请尝试并行运行 100 个不同数量的随机作业,看看最适合您的作业数。随机选择很重要,这样您还可以测量磁盘 I/O。如果文件大小差异很大,请运行几次测试。
find pdfdir -type f > files
mytest() {
shuf files | head -n 100 |
parallel -j $1 pdftotext -layout -enc UTF-8 {} - > out;
}
export -f mytest
# Test with 1..10 parallel jobs. Sort by JobRuntime.
seq 10 | parallel -j1 --joblog - mytest | sort -nk 4
不要担心您的 CPU 以 100% 的速度运行。这只是意味着您在电脑商店花的所有钱都能得到返回。
只有当磁盘缓存变低时,您的 RAM 才会成为问题(在您的屏幕截图中,754M 并不低。当它小于 100M 时,它就变低了),因为这可能会导致您的计算机开始交换 - 这可能会减慢它的速度抓取。
关于node.js - I/O 绑定(bind)和 CPU 绑定(bind),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37945596/
我有一个 foo 类,它有一个 bar 方法,它接受可调用的东西(函数指针/仿函数)。这个可调用的东西应该作为绑定(bind)元素传递给另一个方法 doit 和第三个方法 bar_cb 方法。 #in
我正在尝试在我的 WPF 4.0 应用程序(使用 VS 2010 Pro RTM)中创建自定义 TabItem 模板/样式,但尽管一切似乎都正常工作,但我注意到跟踪窗口中存在绑定(bind)错误。 我
作为一名刚接触 Android 的开发人员,我想我可能误解了绑定(bind)服务。 我创建了一项服务来结束对服务器的访问。作为此服务的一部分,该服务正在监听多播地址,以识别本地网络上的设备何时出现和消
这个问题在这里已经有了答案: What is the use of the JavaScript 'bind' method? (23 个回答) 关闭 7 年前。 所以我一直在尝试了解一些 JS 上
我不明白这三种语法之间的区别: where a = f (b) do a <- f (b) do let a = f (b) 我确实明白了a <- f(b)与其他两个不同,在大多数情况下,我尝试了所有
我在将 Cocoa 项目从手动同步接口(interface)模型转换为绑定(bind)模型时遇到问题,这样我就不必担心接口(interface)粘合代码。 我关注了 CocoaDevCentral C
我正在尝试找出一种好的方法来对处理大数据集的代码进行并行化,然后将结果数据导入 RavenDb。 数据处理受 CPU 限制和数据库导入 IO 限制。 我正在寻找一种解决方案,以对 Environmen
我正在 foreach 循环中生成单选按钮。我试图将选中的属性绑定(bind)到父级中的基本可观察值。不幸的是,当单击单选按钮时,父级的属性似乎没有在单击处理程序中更新。 基于一些previous w
在我的 Windows Phone 应用程序中,我有两个 LongListSelectors并排在页面上。我想做到这一点,以便当用户滚动其中一个时,另一个滚动相同的量。 两个 LongListSele
我在网上看到这个问题准备面试: Given a non-preemptive kernel which type of process will get affected morein terms o
我有一个 foreach 绑定(bind),如下所示: Summary Permitting 原因是有两个选项卡始终存在,并且我根据是否添加了其他选项卡来添加其他选项
任何人都有绑定(bind)相同的情况DataContext到 TextBlock 中的 Text 属性(例如)。 我必须分配 DataContext以我的风格反射(reflect)基于 Datacon
给定以下代码: Login 和下面的javascript $(function () { $('#btnLogin').click(function () { co
我使用 boost::asio 创建了一个服务器。我在绑定(bind)到端点时遇到问题。所以,如果我在构造函数中初始化一个接受器: Server::Server(QWidget *parent) :
我正在将现有项目从 MySQL 转换为 Postgres。代码中有相当多的原始 SQL 文字使用 ? 作为占位符,例如 SELECT id FROM users WHERE
似乎在绑定(bind)某些数据时出错了,有人可以帮我解决我哪里出错了,尽管我无法弄清楚。 真的不需要在这里显示太多,这是 Binding,我已经通过移除背景并在其中放置颜色来测试背景,效果很好。 编辑
我正在尝试使用 wcf 构建一个 http 监听器(web 服务)。这个监听器是一个更大的桌面应用程序的一部分。此桌面应用程序还会调用 http 监听器。 当监听器接收到数据时,它应该被传递到桌面应用
嘿嘿。 我正在使用 Node.JS 和 child_process 来生成 bash 进程。我试图了解我是否正在执行 I/O 绑定(bind)、CPU 绑定(bind)或两者兼而有之。 我正在使用 p
尝试执行以下操作并出现“Got interpolation ({{}}) where expression was expected”错误。 {{item.name}} 谢谢!
我有一个导入的 Java 库,它是我解决方案中的“绑定(bind)库”项目。 我正在尝试从解决方案中的另一个项目绑定(bind)到第 3 方库中的服务。 第 3 方库文档 [在 java 中] 非常简
我是一名优秀的程序员,十分优秀!