bash - 为什么我的程序需要这么长时间才能运行？-6ren

bash - 为什么我的程序需要这么长时间才能运行？

转载作者：行者123 更新时间：2023-11-29 09:27:35

我用 bash 编写了一个小程序，它可以将多行(制表符)六列转换为一行 12 列，如下所示:

    $1          $2      $3          $4          $5  $6      $7      $8      $9  $10     $11     $12
input
Scaffold952 345718  345781  aug3.g8795.t1   .   -
Scaffold952 346504  346534  aug3.g8795.t1   .   -
Scaffold952 346721  346733  aug3.g8795.t1   .   -
Scaffold952 348148  348241  aug3.g8795.t1   .   -
output
Scaffold952 345718  345781  aug3.g8795.t1   .   -   345718  345718  0   4   63,30,12,93 0,786,1003,2430

要完成这个:

获取六列输入，按名称排序(第 4 列)，然后按开头排序(第 2 列)
根据输入生成姓名列表并删除重复项
第 2 步中生成的 foreach 行
- 在输入中找到对应的行
- 使用第二和第三列构建第 11 和 12 列，将值插入数组
- 组合列和数组以形成最终的 12 列输出
插入输出文件

第 11 列由 $3 - $2 组成；第 12 列由 $2 减去第一个 $2 值 (345718) 组成，每 6 列行并打印为 csv。

我的代码:

#!/bin/bash

input=$1
output=$2
> $output
# functions
function joinArray { local IFS="$1"; shift; echo "$*"; }
# sort input
sort -k4,4 -k2,2 -o $input < $input

    awk '{ print $4 }' $input | uniq | while read -r line; do
        dup="$(grep -c $line $input)"
        start="$(grep $line $input | awk 'NR==1 { print $2 }')"
        records="$(grep $line $input | awk 'NR==1 { print $0 }')"

        grep $line $input | {
        while read -r record; do
            blocksize+=($(awk '{ print $3 - $2 }' <<< "$record"))
            blockstart+=($(awk -v var="$start" '{ print $2 - var }' <<< "$record"))
        done
#       combine input with arrays to form 12 col output
        bed12[0]+=$(awk '{ print $1 }' <<< "$records")
        bed12[1]+=$(awk '{ print $2 }' <<< "$records")
        bed12[2]+=$(awk '{ print $3 }' <<< "$records")
        bed12[3]+=$(awk '{ print $4 }' <<< "$records")
        bed12[4]+=$(awk '{ print $5 }' <<< "$records")
        bed12[5]+=$(awk '{ print $6 }' <<< "$records")
        bed12[6]+=$(awk '{ print $2 }' <<< "$records")
        bed12[7]+=$(awk '{ print $2 }' <<< "$records")
        bed12[8]+='0'
        bed12[9]+=$dup
        bed12[10]+=$(joinArray $',' "${blocksize[@]}")
        bed12[11]+=$(joinArray $',' "${blockstart[@]}")

        joinArray $'\t' "${bed12[@]}" >> $output
        }
    done

到目前为止，我一直无法使这段代码高效运行，我正在寻求改进它，因为对于一个标准大小的文件(约 30,000 行)，它需要三个小时才能完成。我不确定是什么导致了问题，可能是每次写入记录时打开/关闭输出文件；嵌套的 while 循环；阵列？这是一个糟糕的程序，语言不是合适的选择，还是对于这么大 (1.7 MB) 的文件来说这是预期的？

最佳答案

注意事项:

您放入 while read 中的所有内容每处理一行循环运行一次。
正在运行 $(...)执行 fork() 调用，创建一个全新的进程树条目，在该新进程中运行包含的代码，读取其标准输出，并等待进程完成。这是一个很多的开销。
每次运行 awk -- 虽然它是一个非常快的语言解释器 -- 或 grep ，您实际上是在启动一个新程序:将其 fork ，动态加载其库依赖项，连接其标准输入和标准输出……这也是很多开销。
每次进行重定向时，例如 >>foo ，即打开命令的输出文件，然后在该文件完成后再次关闭它。 (对于 shell 语言尤其如此；一些 awk 实现 > 缓存和重用文件描述符，特别是 GNU 的)。
不幸的是，在撰写本文时，<<< 的 bash 实现涉及在磁盘上创建一个临时文件。如果在 /dev/fd 平台上的紧密内循环中使用此构造是受支持的接口(interface)，< <(printf '%s' "$foo")因此可能比 <<<"$foo" 更快-- 尽管我不建议在实践中实际这样做，除非您需要它，因为 bash 的 future 版本有望解决该行为并使用更易于阅读的语法做正确的事情。

那么，你能做什么？

对于 awk 等工具，仅当您可以跨多行输入重复使用单个长时间运行的实例时才使用它们。
坦率地说，这是这里最重要的推荐。将所有工作从 bash 移到单个 awk调用，你就完成了。
要将输入流解析为多个字段，请使用 bash 自己的内置函数:
```
read -r first_field second_field third_field ...
```
使用 exec >foo 在封闭的外部范围内进行重定向为整个程序(或整个子 shell，如果在这样的上下文中执行)重定向标准输出，或放置 >foo在done之后关闭循环以在该循环期间重定向标准输出。

关于bash - 为什么我的程序需要这么长时间才能运行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38384872/

文章推荐：当值分配给变量时，Unix 中的正则表达式问题

文章推荐： mysql - Rails 在 has_many :through relation 中创建数据

文章推荐： mysql - 创建表并在数据库浏览器中插入值(sqlite)

java - 长时间 session 中连接重置
我有一个独立的 Thread 应用程序。这是一个等待消息的监听器，当消息到达时执行一些操作，其中我必须将消息保存在数据库中。但我遇到了问题，因为如果我运行应用程序并“手动发送消息”，一切都会正常工作，
php - 长时间 sleep 后更新不起作用
我有以下php代码: sleep(65); $query = "UPDATE database.table SET XXXXXXX = XXXXXXX - ".$YYYYYY." WHERE
长时间 sleep 后Android webview无响应
我正在开发一个业余爱好应用程序。它在主布局中使用 webview。单击 webview 内的链接会使用户保持在 webview 内。启动后一切正常，但仍在应用程序内。但是，在手机休眠一段时间后，我重新
java - 长时间 GC 在应用程序中暂停
我目前运行的应用程序需要最大堆大小为 16GB。目前我使用以下标志来处理垃圾回收。 -XX\:+UseParNewGC, -XX\:+UseConcMarkSweepGC, -XX:CMSIniti
c++ - ostringstream operator<< 长时间？
$ uname -a Darwin Wheelie-Cyberman 10.8.0 Darwin Kernel Version 10.8.0: Tue Jun 7 16:33:36 PDT 2011
c++ - 长时间 sleep 时退出
在 while 循环仍在休眠时退出它的最简单方法是什么？是否有某种函数可以在 sleep 时检测某个值是否为真？或者我是否在循环中设置一个小 sleep 并检查如果不再睡一会儿就退出？如果可以，我该
Java 线程在 Ubuntu/Jetty 上滞后/长时间 hibernate
我正在 Ubunu 的 Jetty 6 上运行 Java Web 服务器，用于基于反向 ajax 的 Web。而且我在向浏览器重新发送数据的线程滞后方面遇到了严重的问题。很多时候，一些线程开始 hib
asp.net - 长时间 ASP.NET 操作时 IIS 请求超时
当我运行长时间操作时，我遇到来自 IIS 的请求超时。我的 ASP.NET 应用程序正在后台处理数据，但处理的记录数量很大，因此操作需要很长时间。但是，我认为 IIS 使 session 超时。这是
sql - 当 session 或请求不再存在时，停止(长时间)在 PostgreSQL 中运行 SQL 查询？
我不确定从哪里开始解决这个问题，但如果我有一个 AJAX 网络应用程序向服务器发送请求并在数据库(在我的例子中是 postgresql)上运行长查询，有没有办法停止或如果仍在运行时用户刷新页面或关闭

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

bash - 为什么我的程序需要这么长时间才能运行？