- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
目前,我需要将一个大型 CSV 文件推送到 mongo DB 中,并且值的顺序需要确定数据库条目的键:
CSV 文件示例:
9,1557,358,286,Mutantville,4368,2358026,,M,0,0,0,1,0
9,1557,359,147,Wroogny,4853,2356061,,D,0,0,0,1,0
将其解析为数组的代码:
var fs = require("fs");
var csv = require("fast-csv");
fs.createReadStream("rank.txt")
.pipe(csv())
.on("data", function(data){
console.log(data);
})
.on("end", function(data){
console.log("Read Finished");
});
代码输出:
[ '9',
'1557',
'358',
'286',
'Mutantville',
'4368',
'2358026',
'',
'M',
'0',
'0',
'0',
'1',
'0' ]
[ '9',
'1557',
'359',
'147',
'Wroogny',
'4853',
'2356061',
'',
'D',
'0',
'0',
'0',
'1',
'0' ]
如何将数组插入到我的 mongoose 架构中以进入 mongo db?
架构:
var mongoose = require("mongoose");
var rankSchema = new mongoose.Schema({
serverid: Number,
resetid: Number,
rank: Number,
number: Number,
name: String,
land: Number,
networth: Number,
tag: String,
gov: String,
gdi: Number,
protection: Number,
vacation: Number,
alive: Number,
deleted: Number
});
module.exports = mongoose.model("Rank", rankSchema);
数组的顺序需要与模式的顺序匹配,例如在数组中,第一个数字 9 需要始终保存为键“serverid”等。我正在使用 Node.JS
最佳答案
您可以通过获取 headers
使用 fast-csv 来完成此操作来自模式定义,它将返回解析的行作为“对象”。实际上,您有一些不匹配的地方,因此我已对它们进行了更正标记:
const fs = require('mz/fs');
const csv = require('fast-csv');
const { Schema } = mongoose = require('mongoose');
const uri = 'mongodb://localhost/test';
mongoose.Promise = global.Promise;
mongoose.set('debug', true);
const rankSchema = new Schema({
serverid: Number,
resetid: Number,
rank: Number,
name: String,
land: String, // <-- You have this as Number but it's a string
networth: Number,
tag: String,
stuff: String, // the empty field in the csv
gov: String,
gdi: Number,
protection: Number,
vacation: Number,
alive: Number,
deleted: Number
});
const Rank = mongoose.model('Rank', rankSchema);
const log = data => console.log(JSON.stringify(data, undefined, 2));
(async function() {
try {
const conn = await mongoose.connect(uri);
await Promise.all(Object.entries(conn.models).map(([k,m]) => m.remove()));
let headers = Object.keys(Rank.schema.paths)
.filter(k => ['_id','__v'].indexOf(k) === -1);
console.log(headers);
await new Promise((resolve,reject) => {
let buffer = [],
counter = 0;
let stream = fs.createReadStream('input.csv')
.pipe(csv({ headers }))
.on("error", reject)
.on("data", async doc => {
stream.pause();
buffer.push(doc);
counter++;
log(doc);
try {
if ( counter > 10000 ) {
await Rank.insertMany(buffer);
buffer = [];
counter = 0;
}
} catch(e) {
stream.destroy(e);
}
stream.resume();
})
.on("end", async () => {
try {
if ( counter > 0 ) {
await Rank.insertMany(buffer);
buffer = [];
counter = 0;
resolve();
}
} catch(e) {
stream.destroy(e);
}
});
});
} catch(e) {
console.error(e)
} finally {
process.exit()
}
})()
只要架构实际上与提供的 CSV 一致,就可以了。这些是我可以看到的更正,但如果您需要以不同方式对齐实际的字段名称,那么您需要进行调整。但基本上有一个 Number
在有 String
的位置本质上是一个额外的字段,我认为它是 CSV 中的空白字段。
一般情况是从架构中获取字段名称数组,并在创建 csv 解析器实例时将其传递到选项中:
let headers = Object.keys(Rank.schema.paths)
.filter(k => ['_id','__v'].indexOf(k) === -1);
let stream = fs.createReadStream('input.csv')
.pipe(csv({ headers }))
一旦你真正这样做了,你就会得到一个“对象”而不是一个数组:
{
"serverid": "9",
"resetid": "1557",
"rank": "358",
"name": "286",
"land": "Mutantville",
"networth": "4368",
"tag": "2358026",
"stuff": "",
"gov": "M",
"gdi": "0",
"protection": "0",
"vacation": "0",
"alive": "1",
"deleted": "0"
}
不用担心“类型”,因为 Mongoose 会根据模式转换值。
剩下的事情发生在 data
的处理程序中事件。为了获得最大效率,我们使用 insertMany()
每 10,000 行才写入数据库一次。它实际上如何到达服务器并进行处理取决于 MongoDB 版本,但根据您为单个集合导入的平均字段数(在内存使用和编写合理的网络请求方面的“权衡”),10,000 个应该是相当合理的。如有必要,请减小数字。
重要的部分是将这些调用标记为 async
功能和await
insertMany()
的结果在继续之前。我们还需要 pause()
流和 resume()
在每个项目上,否则我们将面临覆盖 buffer
的风险在实际发送之前插入的文档数量。 pause()
和 resume()
有必要在管道上施加“背压”,否则元素会不断“出来”并触发 data
事件。
当然,对 10,000 个条目的控制要求我们在每次迭代和流完成时进行检查,以便清空缓冲区并将任何剩余文档发送到服务器。
这确实是您想要做的,因为您当然不想在 data
的“每次”迭代中都向服务器发出异步请求。事件或基本上无需等待每个请求完成。您可以不检查“非常小的文件”,但对于任何现实世界的负载,由于尚未完成的“飞行中”异步调用,您肯定会超出调用堆栈。
仅供引用 - a package.json
用过的。 mz
是可选的,因为它只是一个现代化的 Promise
我只是习惯使用标准 Node “内置”库的启用库。该代码当然可以与fs
完全互换。模块。
{
"description": "",
"main": "index.js",
"dependencies": {
"fast-csv": "^2.4.1",
"mongoose": "^5.1.1",
"mz": "^2.7.0"
},
"keywords": [],
"author": "",
"license": "ISC"
}
<小时/>
实际上,使用 Node v8.9.x 及更高版本,我们甚至可以通过 AsyncIterator
的实现使这变得更简单。通过 stream-to-iterator
模块。仍然在 Iterator<Promise<T>>
模式,但应该在 Node v10.x 成为稳定的 LTS 之前这样做:
const fs = require('mz/fs');
const csv = require('fast-csv');
const streamToIterator = require('stream-to-iterator');
const { Schema } = mongoose = require('mongoose');
const uri = 'mongodb://localhost/test';
mongoose.Promise = global.Promise;
mongoose.set('debug', true);
const rankSchema = new Schema({
serverid: Number,
resetid: Number,
rank: Number,
name: String,
land: String,
networth: Number,
tag: String,
stuff: String, // the empty field
gov: String,
gdi: Number,
protection: Number,
vacation: Number,
alive: Number,
deleted: Number
});
const Rank = mongoose.model('Rank', rankSchema);
const log = data => console.log(JSON.stringify(data, undefined, 2));
(async function() {
try {
const conn = await mongoose.connect(uri);
await Promise.all(Object.entries(conn.models).map(([k,m]) => m.remove()));
let headers = Object.keys(Rank.schema.paths)
.filter(k => ['_id','__v'].indexOf(k) === -1);
//console.log(headers);
let stream = fs.createReadStream('input.csv')
.pipe(csv({ headers }));
const iterator = await streamToIterator(stream).init();
let buffer = [],
counter = 0;
for ( let docPromise of iterator ) {
let doc = await docPromise;
buffer.push(doc);
counter++;
if ( counter > 10000 ) {
await Rank.insertMany(buffer);
buffer = [];
counter = 0;
}
}
if ( counter > 0 ) {
await Rank.insertMany(buffer);
buffer = [];
counter = 0;
}
} catch(e) {
console.error(e)
} finally {
process.exit()
}
})()
基本上,所有流“事件”处理以及暂停和恢复都被一个简单的 for
所取代。循环:
const iterator = await streamToIterator(stream).init();
for ( let docPromise of iterator ) {
let doc = await docPromise;
// ... The things in the loop
}
简单!这会在以后的 Node 实现中通过 for..await..of
进行清理。当它变得更加稳定时。但上面的代码在指定版本及以上版本上运行良好。
关于javascript - 使用 Mongoose 架构导入 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50560719/
当我保存4条记录时,我需要将它们一一保存,所以我的代码是 a.save(function(){ b.save(function(){ c.save(function(){ d.save(f
Mongoose在版本4.2.7中创建了一个新的单个子文档功能(documentation和feature request),允许使用单个嵌入式子文档架构,其行为方式与一对多子文档的行为相同。 在父级
Mongoose 版本 >= 4.0 有一个时间戳选项,当 timestamps 设置为 时,该选项会为架构创建 updatedAt 和 createdAt 字段正确。 http://mongoose
我注意到某些图书馆喜欢 mock 鹅 ( https://github.com/mccormicka/Mockgoose/blob/master/test/index.spec.js ) 使用 req
我正在与 Mongoose 合作。我见过很多开发者发出以下命令: mongoose.Promise = global.Promise; 然后我很好奇 mongoose.Promise 的原始值是什么。
当我运行与数据库大量连接和断开连接的测试时,我收到以下警告。 (node) warning: possible EventEmitter memory leak detected. 11 connec
我可以在 Mongoose 的子文档数组中填充动态引用(使用“refPath”)虚拟字段吗? 数据结构如下 Group - Members -> User 代码:模型/模式 let MemberSc
我正在我的应用程序中做一些测试,看看内存缓存是否真的在工作。但是,由于 memory-cache 显然没有公开“命中”事件,我无法判断是否真的从缓存中获取数据。所以我试着看看当应用程序实际从数据库中获
我是 nestjs 的新手。我使用 @nestjs/mongoose,我需要在我的类模式中引用嵌套对象中的几个字段,但我不知道该怎么做。 dietDays 对象必须包含一个日期字段和包含对 Meal
我是 mongodb 的新手,我有一个这样的数据模型 { last_updated: Date.now(), csgo_items:[ {name: 'name', p
这是我的方案: var documentSchema = mongoose.Schema({ 'facts': [{ 'type': { type: String, requi
我想删除多个 _ids = ['123', '234', '345']; _ids.forEach(_id => { await model.deleteOne({ _id }); }); 有没有
我有一个像这样的 Mongoose 模式: var Address = { doorNo:String, city:String, state:String, coun
我的文档包含一个名为 clients 的字段那应该包含一组客户端ID。 { "first_name":"Nick", "last_name":"Parsons", "email":"nic
我遇到了以下我无法理解的代码行,尽管有很多教程提供了与 populate 的示例相关的信息。但没有一个能解释它究竟意味着什么。这是一个例子 var mongoose = require('mongoo
我有一个具有多个唯一性的架构,如下所示: var userSchema = new mongoose.Schema({ user: { type: String, unique:
我有一个 Mongoose 模式,其中有 4 个子模式。我一直在关注这里的文档https://github.com/LearnBoost/mongoose关于嵌入文档 var scenarios =
我希望每个字符串属性都默认设置为 true。有办法吗? ?? mongoose.Schema.String -> default { trim: true } var schema = new Sch
我有这个代码 var ClientSchema = new Schema({ name: {type: String, required: true, trim: true} }); var Cl
许多教程告诉您在您的 userSchema 页面中使用 bycrypt。保存新用户后,它会附带加密密码。伟大的。然而,我想,当我用某些东西编辑用户时,它也会重新哈希密码,导致无法登录。你能给我一个解决
我是一名优秀的程序员,十分优秀!