javascript - 在 Nodejs 中解析大型 JSON 文件-6ren

javascript - 在 Nodejs 中解析大型 JSON 文件

转载作者：IT老高更新时间：2023-10-28 12:42:51

24

4

我有一个以 JSON 格式存储许多 JavaScript 对象的文件，我需要读取该文件，创建每个对象，并对它们进行处理(在我的情况下将它们插入数据库)。 JavaScript 对象可以用一种格式表示:

格式 A:

[{name: 'thing1'},
....
{name: 'thing999999999'}]

或格式B:

{name: 'thing1'}         // <== My choice.
...
{name: 'thing999999999'}

请注意，... 表示很多 JSON 对象。我知道我可以将整个文件读入内存，然后像这样使用 JSON.parse():

fs.readFile(filePath, 'utf-8', function (err, fileContents) {
  if (err) throw err;
  console.log(JSON.parse(fileContents));
});

但是，文件可能非常大，我更喜欢使用流来完成此操作。我在流中看到的问题是文件内容可以在任何时候分解成数据 block ，那么如何在这些对象上使用 JSON.parse() 呢？

理想情况下，每个对象都将作为单独的数据 block 读取，但我不确定如何做到这一点。

var importStream = fs.createReadStream(filePath, {flags: 'r', encoding: 'utf-8'});
importStream.on('data', function(chunk) {

    var pleaseBeAJSObject = JSON.parse(chunk);           
    // insert pleaseBeAJSObject in a database
});
importStream.on('end', function(item) {
   console.log("Woot, imported objects into the database!");
});*/

注意，我希望防止将整个文件读入内存。时间效率对我来说并不重要。是的，我可以尝试一次读取多个对象并将它们全部插入，但这是一个性能调整 - 我需要一种保证不会导致内存过载的方法，无论文件中包含多少对象.

我可以选择使用 FormatA 或 FormatB 或其他方式，请在您的回答中说明。谢谢!

最佳答案

要逐行处理文件，您只需将文件的读取和作用于该输入的代码解耦。您可以通过缓冲输入来完成此操作，直到您点击换行符。假设我们每行有一个 JSON 对象(基本上是格式 B):

var stream = fs.createReadStream(filePath, {flags: 'r', encoding: 'utf-8'});
var buf = '';

stream.on('data', function(d) {
    buf += d.toString(); // when data is read, stash it in a string buffer
    pump(); // then process the buffer
});

function pump() {
    var pos;

    while ((pos = buf.indexOf('\n')) >= 0) { // keep going while there's a newline somewhere in the buffer
        if (pos == 0) { // if there's more than one newline in a row, the buffer will now start with a newline
            buf = buf.slice(1); // discard it
            continue; // so that the next iteration will start with data
        }
        processLine(buf.slice(0,pos)); // hand off the line
        buf = buf.slice(pos+1); // and slice the processed data off the buffer
    }
}

function processLine(line) { // here's where we do something with a line

    if (line[line.length-1] == '\r') line=line.substr(0,line.length-1); // discard CR (0x0D)

    if (line.length > 0) { // ignore empty lines
        var obj = JSON.parse(line); // parse the JSON
        console.log(obj); // do something with the data here!
    }
}

文件流每次从文件系统接收数据时，都会将其存储在缓冲区中，然后调用pump。

如果缓冲区中没有换行符，pump 会直接返回而不做任何事情。下次流获取数据时，会将更多数据(可能还有换行符)添加到缓冲区中，然后我们将拥有一个完整的对象。

如果有换行符，pump 将缓冲区从开头切到换行符，并将其交给 process。然后它再次检查缓冲区中是否有另一个换行符(while 循环)。这样，我们就可以处理当前 block 中读取的所有行。

最后，process 每输入行调用一次。如果存在，它会去掉回车符(以避免出现行尾问题 - LF vs CRLF)，然后在一行中调用 JSON.parse。此时，您可以对您的对象做任何您需要的事情。

请注意，JSON.parse 对它接受的输入内容是严格的；您必须用双引号引用您的标识符和字符串值。换句话说，{name:'thing1'} 会抛出错误；你必须使用 {"name":"thing1"}.

因为一次不会超过一 block 数据在内存中，这将是非常节省内存的。它也将非常快。快速测试显示我在 15 毫秒内处理了 10,000 行。

关于javascript - 在 Nodejs 中解析大型 JSON 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11874096/

24

4

0

文章推荐： c++ - 如何启用父级和派生的_shared_from_this

文章推荐：带有回调ajax json的jQuery自动完成

文章推荐： macos - 从网络中的外部机器访问 Docker

文章推荐： ubuntu - 无法从主机连接到 Docker 上的 Flask 应用程序

javascript - 控制台错误 - 解析 AJAX JSON 解析
我一直在使用 AJAX 从我正在创建的网络服务中解析 JSON 数组时遇到问题。我的前端是一个简单的 ajax 和 jquery 组合，用于显示从我正在创建的网络服务返回的结果。尽管知道我的数据库查
xml - Json 解析 vs xml 解析？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
android - java.lang.NoClassDefFoundError : com. 解析。解析
我在尝试运行 Android 应用程序时遇到问题并收到以下错误 java.lang.NoClassDefFoundError: com.parse.Parse 当我尝试运行该应用时。最佳答案在这
python - 解析 HTML 内容时防止 etree 解析 HTML 实体
有什么办法可以防止etree在解析HTML内容时解析HTML实体吗？ html = etree.HTML('&') html.find('.//body').text 这给了我 '&' 但我想
javascript - 使用 JSON 解析/解析 js 对象时，返回方法中的函数范围会丢失
我有一个有点疯狂的例子，但对于那些 JavaScript 函数作用域专家来说，它看起来是一个很好的练习: (function (global) { // our module number one
java - 使用 Java 解析 HTML 数据(DOM 解析)
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 8 年前。 Improve th
php - 在服务器上用 PHP 解析 HTML 还是在最终用户端用 JavaScript 解析 HTML 会更好？
我需要编写一个脚本来获取链接并解析链接页面的 HTML 以提取标题和其他一些数据，例如可能是简短的描述，就像您链接到 Facebook 上的内容一样。当用户向站点添加链接时将调用它，因此在客户端启动
node.js - 为什么 npm 包从/AppData 解析，而不是从 local/node_modules 解析？
在 VS Code 中本地开发时，包解析为 C:/Users//AppData/Local/Microsoft/TypeScript/3.5/node_modules/@types//index而不是
php - 解析 json 错误 : SyntaxError: JSON. 解析:JSON 数据的第 1 行第 2 列出现意外字符
我在将 json 从 php 解析为 javascript 时遇到问题这是我的示例代码: //function MethodAjax = function (wsFile, param) {
php - 解析 json 错误 : SyntaxError: JSON. 解析:JSON 数据的第 1 行第 2 列出现意外字符
我在将 json 从 php 解析为 javascript 时遇到问题这是我的示例代码: //function MethodAjax = function (wsFile, param) {
解析，在哪里可以了解
我被赋予了将一种语言“翻译”成另一种语言的工作。对于使用正则表达式的简单逐行方法来说，源代码过于灵活(复杂)。我在哪里可以了解更多关于词法分析和解析器的信息？最佳答案如果你想对这个主题产生“情绪化
正则表达式 {} 解析
您好，我在解析此文本时遇到问题 { { { {[system1];1;1;0.612509325}; {[system2];1;
JavaScript 解析？
我正在为 adobe after effects 在 extendscript 中编写一些代码，最终变成了 javascript。我有一个数组，我想只搜索单词“assemble”并返回整个 jc3_
JavaScript 解析
我有这段代码: $(document).ready(function() { // }); 问题:FB_RequireFeatures block 外部的代码先于其内部的代码执行。因此 who
解析.netcore项目中IStartupFilter使用教程
背景： netcore项目中有些服务是在通过中间件来通信的，比如orleans组件。它里面服务和客户端会指定网关和端口，我们只需要开放客户端给外界，服务端关闭端口。相当于去掉host，这样省掉了些
解析:继承ViewGroup后的子类如何重写onMeasure方法
1.首先贴上我试验成功的代码复制代码代码如下: protected void onMeasure(int widthMeasureSpec, int heightMeasureSpec)
Python如何对XML 解析
什么是 XML？ XML 指可扩展标记语言（eXtensible Markup Language），标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。你可以通过本站学习 X
解析:php调用MsSQL存储过程使用内置RETVAL获取过程中的return值
【PHP代码】复制代码代码如下: $stmt = mssql_init('P__Global_Test', $conn) or die("initialize sto
解析:清除SQL被注入恶意病毒代码的语句
在SQL查询分析器执行以下代码就可以了。复制代码代码如下: declare @t varchar(255),@c varchar(255) declare table_cursor curs
【JavaScript】前端算法题40道题+解析
前言最近练习了一些前端算法题，现在做个总结，以下题目都是个人写法，并不是标准答案，如有错误欢迎指出，有对某道题有新的想法的友友也可以在评论区发表想法，互相学习🤭 题目题目一: 二维数组中的

首页

博学

6Ren·AI

商城

javascript - 在 Nodejs 中解析大型 JSON 文件