json - 分离处理非常大的压缩 JSON 文件的命令的保存输出-6ren

json - 分离处理非常大的压缩 JSON 文件的命令的保存输出

转载作者：太空狗更新时间：2023-10-29 11:28:25

28

4

好的，让我们从我正在使用的命令行开始:

curl --silent http://example.com/json.gz | pigz -dc | jq -r '[.name, .value] | @csv' > data.csv

CURL 将下载 11.6 GB 的压缩 JSON 文件，pigz 将解压缩并将所有处理后的输出写入标准输出，jq 将读取 JSON 并将输出保存为csv 文件。

问题是，保存为 data.csv 的输出非常大，毕竟我仍然需要使用 PHP 脚本分析这些数据，并以特殊格式将其插入 MYSQL(数据将非常小) )

但是，我的服务器中只剩下不到 60 GB 的可用空间，即使我无法解压缩完整数据并将其保存到 CSV 文件。

所以，我想到了一个主意，如果我能够将输出保存到具有不同名称的单独文件(假设名称是当前日期或时间戳)，那么我就可以运行 PHP 脚本来处理每个 .csv它们的文件并将数据保存到数据库，然后删除文件以释放空间，不确定这是否是最好的方法，但至少我正在努力使其工作。

因此，我将命令行修改为:

curl --silent http://example.com/json.gz | pigz -dc | jq -r '[.name, .value] | @csv' > `date +"%S-%M-%d-%m-%Y"`_data.csv

但是，它只将所有内容保存在一个文件中，我认为它将保存为多个文件，每个文件都有不同的名称，因为在写入输出时日期会不断变化。

此外，欢迎任何其他可行的解决方案，谢谢!

最佳答案

使用 GNU `split --filter` 节省空间

POSIX split 从其输入创建输出文件，因此需要大量可用空间来存储它们(整个未压缩输入的大小加上一些开销)。

但是，split 的 GNU 版本有一个额外的 --filter 选项，允许在更少的空间中处理单个数据 block ，因为它不需要创建任何临时文件:

| split -l $NUMLINES --filter='shell_command'

你可以把它想象成 xargs -n $NUMLINES command 除了将数据传递给 stdin 而不是作为命令行参数。

例如输出/etc/passwd每组(最多)7行的md5sum，然后输出处理的 block 数:

</etc/passwd split -l7 --filter='md5sum|tee /dev/tty' |\
{ echo Processed $(wc -l) chunks; }

要修改您的命令一次处理 10000 行，您可以这样做:

curl -L --silent "$URL" |\
pigz -dc |\
jq -r '[.name, .value] | @csv' |\
split -l 10000 --filter='save2db.php'

您的过滤器命令 save2db.php 应该从标准输入中读取。

如果你更喜欢让它从实际文件中读取，你可以这样做:

... |\
split -l 10000 --filter='cat >TMPFILE; save2db.php TMPFILE';
rm TMPFILE

警告:您需要确保在行边界上拆分 csv 文件是安全的。一些 csv 文件包含带有嵌入式文字换行符的字段；如果中场 split ，他们可能会变得畸形。

关于json - 分离处理非常大的压缩 JSON 文件的命令的保存输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55192047/

28

4

0

文章推荐： css - 使用 CSS HTML 提交按钮的垂直对齐

文章推荐： div 中的 CSS 自动换行

文章推荐： jquery - Scrollable Div，可以看到哪些元素

jpa - 同一实体的多个表示正在合并、分离
我在尝试使用 jpa2.0 将包含持久实体和分离实体(新创建的实体)的实体列表更新到我的数据库中时遇到错误。我的实体包含在合并数据时出现错误(在标题中提到)的内部实体: Class supercla
java - 分离 JLayeredPane
我在分层 Pane 中有一组面板。我需要一个分隔符来将 sideBar 与 topBar 和 tabbedPanel 分开。我留了一个 10 像素的缓冲区来放置它。不幸的是，可能由于它是 JLayer
android - 分离 EditText
在我从数据库中读取的代码中，我还使用自定义适配器打印出每一行，该行中有一个 texttview、2 个按钮和一个 edittext。这一切都很好，但是当按下按钮时，edittext 会递增或递减，有没
java - 分离/逐出具有非持久化子对象的对象树
我有一个由 Hibernate 4.3.4 管理的实体，它有一个其他实体的一对多集合。在我的处理过程中，我必须分离父实体(将分离级联到子列表)。但是，当我向列表中添加一个尚未持久化的新项目并执行分离
javascript - 确保附加行始终是动态创建的行组成的表中的最后一行。。分离()
我想追加一行，该行应该是表格的最后一行。在我的代码中，它似乎在第一次动态添加行时起作用。但是当添加其他行时它不会成为最后一行。我总是希望“subtot”行成为最后一行，但是当我追加其他行时，它不
html - 分离 Div
我试图用它们之间的空格分隔这 2 个 div(请参见图 1)。问题是当我添加边距或填充时会发生这种情况(请参见图 2)。这是我的代码，请注意我没有使用 Bootstrap: .row { mar
c# - 如何检测远程参与者断开连接(分离)？
我的服务器包含一些 ServerActor。该 actor 接收 RegisterClient 消息并将 ActorRefs 添加到已注册客户端列表中。我还有多个客户端，每个客户端都包含 Clien
Clojure:分离 comp 和部分参数
假设我有一个需要两个参数的函数，并且参数的顺序会影响结果。是否可以将第一个参数传递给 partial 或 comp 函数，然后将另一个参数传递给它，如下所示: (defn bar [arg1 arg
clojure - 分离 map 的多个后代键？
如何搜索和分离多个后代键。例子: (def d {:foo 123 :bar { :baz 456 :bam { :w
scala - Slick:动态创建查询连接/分离
我正在尝试为 Slick 表创建一个类型安全的动态 DSL，但不确定如何实现这一点。用户可以通过以 form/json 格式发送过滤器来将过滤器发布到服务器，我需要使用所有这些来构建一个 Slick
Reactjs 分离 UI 和业务逻辑
我是新来的，我发现看到充满大量函数和变量初始化以及 UI 的组件时眼睛很痛。是否可以将它们分开？而不是默认设置，如下所示。如何将业务逻辑分离到另一个文件中？ function MyComponent
r - 传递一个字符 arg。分离
我试图通过将参数粘贴在一起来使用分离。这应该是一件容易的工作，但不适合我。当我想到使用 eval(parse()) 时，我知道是时候寻求帮助了通常，如果我加载一个包，我可以按如下方式分离它: det
clojure - 与 pred 分离
(dissoc :a m)允许我解除给定的键。但是，有没有办法使用谓词函数来分离 pred 为真的任何键？ (dissoc-with-pred pred? m) 所以给了一张 map - {:a 2
r - 分离 R 包以升级它的可靠过程是什么？
我编写了一个使用 devtools 来包含内部数据的包: devtools::use_data(.data, internal = T, overwrite = T) 我最近更改了该数据并重建了包。我
terminal - 运行脚本时 tmux 分离
所以我有一个脚本，我想在我的服务器上运行它而不会打扰我。所以我想我会在 tmux 窗口中运行服务器，然后 detach这样我就可以简单地 attach如果我想查看进度(此脚本需要数天才能运行)。但是
javascript - 分离 ThreeJS 模型和动画数据
ThreeJS中动画数据和模型数据是否可以解耦？这样就可以交换模型并保留动画？我认为这可能非常强大我知道如何在 ThreeJS 中做到这一点的方法是将每个动画一个接一个地打包在一个模型中，这似乎是
docker - 分离 Docker 文件和应用程序源文件以优化生产环境
我有一堆(Ruby)脚本存储在服务器上。到目前为止，我的团队通过打开一个启动脚本名称列表的访问器应用程序来使用它们，然后他们在工作文件夹中的文件上选择要在该实例中运行的脚本。脚本直接从服务器运行，因此
javascript - 分离 Javascript 函数
我想知道 javascript 如何包含在 jsp 中 - 我们是否可以在 .js 文件中放置 jsp 能够识别的任何代码，而不仅仅是 javascript 代码？我有一些常见的 JavaScrip
默认为后台运行的 Dockerfile 选项(分离)
您是否可以在 Dockerfile 中指定一个选项，默认使用它构建的容器以分离方式运行。这将导致与 -d 相同的结果: docker run -d 这样 docker run 默认情况下会分离运
Java:分离 JAR 版本
我正在为现有的 Java 程序开发 Java 插件。现有程序使用特定版本的 eclipse.uml2.*，我的插件也是如此。不幸的是，我的插件需要更新版本。为了运行该插件，我需要将其导出到 Jar

首页

博学

6Ren·AI

商城