gpt4 book ai didi

javascript - MongoDB bulk.execute()花费太多时间插入无序

转载 作者:可可西里 更新时间:2023-11-01 09:54:53 26 4
gpt4 key购买 nike

我正在尝试为 mongoDB(版本 3.2.4)提供来自 google ngrams 的弧线,但即使配置不错(MBP Mid 2014,2.2 GHz Intel Core i7,16gb)也花费了太多时间。

对于原始文件中 890 万行中的每一行,我都创建了一个 docbulk.insert(doc); 将其放入一个无序的 block 中。

插入其中的 500 个后,我执行 bulk.execute() 并重复此过程,直到将所有这些都添加到数据库中,但这种情况从未发生过,因为每千次花费的时间超过一分钟文档要插入,我肯定没有 8,9k 分钟等待它。

代码如下:

MongoClient.connect(url, function (err, db) {
if (err) {
console.log('Unable to connect to the mongoDB server. Error:', err);
} else {
//connected
console.log('Connection established to', url);

var bulk = db.collection('bigrams').initializeUnorderedBulkOp();

const rl = readline.createInterface({
input: fs.createReadStream(path+filename)
});

rl.on('line', function (line) {
var stringArray = line.split("\t");
var firstPart = stringArray[0]+'\t'+stringArray[1]+'\t'+stringArray[2]+"\t";

var head_token = stringArray[0];
var syntatic_ngram = stringArray[1].split(" ");
var total_count = stringArray[2];
var counts_by_year = line.replace(firstPart,'').split("\t");

var doc = {
"head token" : head_token,
"syntatic ngram" : syntatic_ngram,
"total count" : total_count,
"counts by year" : counts_by_year
};
count++;
bulkCount++;
if (bulkCount == bulkSize) {
console.log("BulkSize reached. Executing...");
bulk.execute();
bulkCount = 0;
}
console.log("bulk inserted count:"+count);
bulk.insert(doc);
});

rl.on('end', function(){
bulk.execute();
db.close();
});

}
});

P.S.:前 10k 次插入,即前 20 次 bulk.execute() 是非常快的进程 <1m。之后处理时间会增加。 ):有什么建议吗?谢谢。

最佳答案

我从 mongoDB 得到了答案 documentation : "执行后,如果不重新初始化,就不能重新执行 Bulk() 对象。"

我刚刚在 bulk.execute(); 之后添加了 bulk = db.collection('bigrams').initializeUnorderedBulkOp(); 并且插入时间是常数.几分钟后,一切都已插入。

希望这对其他人有帮助。 (:

关于javascript - MongoDB bulk.execute()花费太多时间插入无序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36164186/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com