linux - 如何根据原始文件的第一列值组织新文件？-6ren

linux - 如何根据原始文件的第一列值组织新文件？

转载作者：太空宇宙更新时间：2023-11-04 09:27:00

25

4

假设我有 3 个文件:File-A、File-B、File-C；其中每个文件有两列数据(空间划定)但行数未知(且可变)。

输入

File-A:
1 dE
1 dF         
2 dF
2 dH         

File-B:    
1 dI         
3 dJ
3 dK         

File-C:
2 dF
3 dH
3 dJ
3 dK
4 dL

我如何有效地对数据进行排序，以便为第一列中的每个值创建新文件(即，File-1、File-2、 File-3, File-4) 跟踪他们的第 2 列合作伙伴数据和原始文件名？

期望的输出

File-1:      
A dE
A dF
B dI

File-2:    
A dF
A dH         
C dF         

File-3:
B dJ
B dK
C dH
C dJ
C dK

File4:
C dL

实际上，我有几十万个原始文件，每个文件有几百行数据(但原始文件和新文件的总数是已知的)。实现此类排序最省时的方法是什么？

与 Fortran 之类的程序相比，Bash 脚本是否是最快的方法？我刚开始学习 sed 和 awk – 这样的东西效果最好吗？

如果在链接之前提出了类似的问题，我们将不胜感激。 closest question到目前为止，我发现 awk 似乎是一种可行的方法。

最佳答案

这是一个(可能非常慢的)Bash 解决方案:

#!/bin/bash

for suffix in "${@##*-}"; do    # Get suffix from each file name
    while read -r col1 col2; do # Read two columns

        # Assemble output line and write to proper file
        printf "%s %s\n" "$suffix" "$col2" >> "File-$col1"
    done < "File-$suffix"
done

Bash 循环很慢，许多重定向也很慢，但我想不出另一种方法，因为每个输入行都可能转到另一个输出文件。

awk 中可能更快的东西:

#!/usr/bin/awk -f

# For each new file, get the file name suffix
FNR == 1 {
    split(FILENAME, arr, "-")
    suffix = arr[2]
}

# On each line, create the output file name, then print to that file
{
    ofname = "File-" $1
    print suffix, $2  > ofname
}

两者都是从命令行使用 ./scriptname File-* 调用的。

打开文件句柄的数量限制

可以同时打开的文件句柄数量是有限制的:从您的操作系统和 awk。 Gawk 做了一些技巧¹ 来解决这个问题，但它可能仍然更快(并且绝对更便携)以避免打开的文件句柄太多。

例如，一种补救措施是跟踪每个输入文件的打开文件句柄，然后在处理下一个文件之前关闭它们:

#!/usr/bin/awk -f

# For each new file, get the file name suffix
FNR == 1 {
    # Close open files
    for (fname in openfiles)
        close(openfiles[fname])
    split(FILENAME, arr, "-")
    suffix = arr[2]
}

# On each line, create the output file name, then print to that file
{
    ofname = "File-" $1
    openfiles[ofname] = 1   # Keep track of open files
    print suffix, $2  > ofname
}

¹ 来自 manual :

If you use more files than the system allows you to have open, gawk attempts to multiplex the available open files among your data files. gawk’s ability to do this depends upon the facilities of your operating system, so it may not always work.

It is therefore both good practice and good portability advice to always use close() on your files when you are done with them. In fact, if you are using a lot of pipes, it is essential that you close commands when done.

关于linux - 如何根据原始文件的第一列值组织新文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35373544/

25

4

0

文章推荐： python - 列表中的两个以下元素

文章推荐： python - 以指定格式填充缺失值——Python

文章推荐： linux - 在 bash 中复制整个驱动器上的所有照片？

java - 原始 + ""与 Wrapper.toString(原始)
当需要将原始类型转换为字符串时，例如传递给需要字符串的方法时，基本上有两种选择。以int为例，给出: int i; 我们可以执行以下操作之一: someStringMethod(Integer.to
r - Bootstrapping : Error in statistic(data, 原始，...):未使用的参数(原始)
我有一个位置估计数据库，并且想要计算每月的内核利用率分布。我可以使用 R 中的 adehabitat 包来完成此操作，但我想使用引导数据库中的样本来估计这些值的 95% 置信区间。今天我一直在尝试引导
PowerShell 原始 FTP
我希望使用 FTP 编写大型机作业流。为此，我可以通过 FTP 连接到大型机并运行以下命令: QUOTE TYPE E QUOTE SITE FILETYPE=JES PUT myjob.jcl 那么
WPF:将画笔恢复为默认/原始
我是 WPF 的新手。目前，我正在为名为“LabeledTextbox”的表单元素制作一个用户控件，其中包含一个标签、一个文本框和一个用于错误消息的文本 block 。当使用代码添加错误消息时，我
SignalR(原始)不向客户端发送消息
我们正在使用 SignalR(原始版本，而不是 Core 版本)并注意到一些无法解释的行为。我们的情况如下: 我们有一个通过 GenericCommand() 方法接受命令的集线器(见下文)。这些命
Python请求 - 打印整个http请求(原始)？
使用 requests module 时，有没有办法打印原始 HTTP 请求？我不只想要标题，我想要请求行、标题和内容打印输出。是否可以看到最终由 HTTP 请求构造的内容？最佳答案 Since
你需要知道的三种VMware磁盘类型：原始、厚和精简
与直接访问现有本地磁盘或分区的物理磁盘相比，虚拟磁盘为文件存储提供更好的可移植性和效率。VMware有三种不同的磁盘类型：原始磁盘、厚磁盘和精简磁盘，它们各自分配不同的存储空间。 VMware
unity3d - 预制件(原始)和变体预制件有什么区别？
我有一个用一些颜色着色器等创建的门。前段时间我拖着门，它问我该怎么办时，我选择了变体。但现在我决定选择创建原始预制件和门颜色，或者着色器变成粉红色。这是资源中原始预制件和变体的屏幕截图。粉红色的
forms - Symfony2 form_label 原始
我想呈现原始翻译，所以我决定在 Twig 模板中使用“原始”选项。但它不起作用。例子: {{ form_label(form.sfGuardUserProfile.roules_acceptance)
sqlite - 文字(原始)值作为sqlite中的外键
是否可以在sqlite中制作类似的东西？ FOREIGN KEY(TypeCode, 'ARawValue', IdServeur) REFERENCES OTHERTABLE(TypeCode, T
geolocation - 原始 geoip 数据从何而来？
这个问题是一个更具体问题的一般版本 asked here .但是，这些答案无法使用。问题: geoIP数据的原始来源是什么？许多网站会告诉我我的 IP 在哪里，但它们似乎都在使用来自不到 5 家公
docker - Openshift/原始-基于Wildfly创建图像
对于Openshift:如何基于Wildfly创建docker镜像？这是使用的Dockerfile: FROM openshift/wildfly-101-centos7 # Install exa
Groovy 原始 double 算术
结果是 127 double middle = 255 / 2 虽然这产生了 127.5 Double middle = 255 / 2 同时这也会产生 127.5 double middle = (
delphi - 以编程方式逐个像素地交换小位图(原始)的颜色
在此处下载带有已编译可执行文件的源代码(大小:161 KB(165,230 字节)):http://www.eyeClaxton.com/download/delphi/ColorSwap.zip 原
string - 有没有办法在lua(原始)中定义自动转义字符串？
以下几行是我需要在 lua 中使用的任意正则表达式。 ['\";=] !^(?:(?:[a-z]{3,10}\s+(?:\w{3,7}?://[\w\-\./]*(?::\d+)?)?/[^?#]*(
geolocation - 原始 geoip 数据从何而来？
这个问题是一个更具体问题的一般版本 asked here .但是，这些答案无法使用。问题: geoIP数据的原始来源是什么？许多网站会告诉我我的 IP 在哪里，但它们似乎都在使用来自不到 5 家公
api - 原始.M数组字符串？以相同的结构响应http请求
我正在使用GoLang做服务器api，试图管理和回答所发出的请求。使用net/http和github.com/gorilla/mux。收到请求时，我使用以下结构创建响应: type Response
c++ - 原始 static_vector 实现中可能未定义的行为
tl; dr:我认为我的 static_vector 有未定义的行为，但我找不到它。这个问题是在 Microsoft Visual C++ 17 上。我有这个简单且未完成的 static_vecto
awk - 原始 awk 源代码的旧版本存档？
我试图找到原始 Awk (a/k/a One True Awk) 源代码的“历史”版本。我找到了 Kernighan's occasionally-updated site ，它似乎总是链接到最新版本
Python 原始 IPv6 套接字错误
我在 python 中使用原始 IPv6 套接字时遇到一些问题。我通过以下方式连接: if self._socket != None: # Close out old sock

首页

博学

6Ren·AI

商城

linux - 如何根据原始文件的第一列值组织新文件？