awk - 从制表符分隔的文件中提取列-6ren

awk - 从制表符分隔的文件中提取列

转载作者：行者123 更新时间：2023-12-02 03:15:52

38

4

我有一个文件 (data.rdb)，格式如下:

col1    col2    col3    col4    col5    col6    col7
aaa1    bbb1    ccc1    ddd1    eee1    fff1    ggg1
aaa2    bbb2    ccc2    ddd2    eee2    fff2    ggg2
aaa3    bbb3    ccc3    ddd3    eee3    fff3    ggg3

数据的一些属性:

所有列均以制表符分隔
列的宽度不同
单元格的长度可能不同
该文件将包含比显示的更多的列和几百行
我提供的列名称只是通用名称，真实名称可以是任何单词，没有制表符、空格或特殊字符。

我需要使用 bash 按名称提取一些列，例如 col1、col3 和 col6，其中要选择的列来自定义为 COLUMN_LIST=$@ 的 shell 变量，其中 $@ 是传递给我的 shell 脚本的参数。每次调用脚本时，参数的数量和名称可能会发生变化。

脚本需要在bash中，不能是python或类似的。

有什么想法吗？我考虑过使用awk/gawk，但我不知道如何按列名进行选择。列顺序可能因文件而异。

谢谢豪尔赫

更新

出于某种原因，这些解决方案似乎都不适用于我的真实数据文件(即，我根本没有输出)，因此我发布了其中一个的子集:

date    star    jdb texp
2013-11-22  epsInd   2400000.23551544   100.
2013-11-22  epsInd   2400000.23551544   100.
2013-11-22  epsInd   2400000.23551544   100.
2013-11-22  HD217987 2400000.23551544   900.
2013-11-22  TOI-134  2400000.23551544   900.
2013-11-22  tauCet   2400000.23551544   60. 
2013-11-22  BD+01316 2400000.23551544   300.
2013-11-22  BD+01316 2400000.23551544   300.
2013-11-22  BD+01316 2400000.23551544   300.
2013-11-22  BD+01316 2400000.23551544   300.

在这种情况下，我会对 star jdb 和 texp 列感兴趣

更新 2

我使用了@EdMorton 的代码，结果如下:

date    star    jdb texp    date    star    jdb texp
2013-11-22  epsInd   2400000.23551544   100.    2013-11-22  epsInd   2400000.23551544   100.
2013-11-22  epsInd   2400000.23551544   100.    2013-11-22  epsInd   2400000.23551544   100.
2013-11-22  epsInd   2400000.23551544   100.    2013-11-22  epsInd   2400000.23551544   100.
2013-11-22  HD217987 2400000.23551544   900.    2013-11-22  HD217987 2400000.23551544   900.
2013-11-22  TOI-134  2400000.23551544   900.    2013-11-22  TOI-134  2400000.23551544   900.
2013-11-22  tauCet   2400000.23551544   60.     2013-11-22  tauCet   2400000.23551544   60. 
2013-11-22  BD+01316 2400000.23551544   300.    2013-11-22  BD+01316 2400000.23551544   300.
2013-11-22  BD+01316 2400000.23551544   300.    2013-11-22  BD+01316 2400000.23551544   300.
2013-11-22  BD+01316 2400000.23551544   300.    2013-11-22  BD+01316 2400000.23551544   300.
2013-11-22  BD+01316 2400000.23551544   300.    2013-11-22  BD+01316 2400000.23551544   300.

更新 3

我最终使用了 EdMorton 的 awk 版本——主要是为了输出的灵 active ——但我不想让它输出错误的列的修改:

BEGIN {
    numCols = split(column_list,cols)
    OFS="\t"
}
{ sub(/\r$/,"") }
NR==1 {
    for (fldNr=1; fldNr<=NF; fldNr++) {
        f[$fldNr] = fldNr
    }
}
{
    for (colNr=1; colNr<=numCols; colNr++) {
        colName = cols[colNr]
        colVal  = (colName in f ? $(f[colName]) : "")
        printf "%s%s", colVal, (colNr<numCols ? OFS : ORS)
    }
}

我遇到的主要问题是标题行不是制表符分隔的，因此列分割不起作用。识别制表符/非制表符的简单方法:

tr $'\t' '#' < data.rdb | head -2

它给出了我的一个测试文件:

date    star    jdb texp
2013-11-22#epsInd#2400000.23551544#100.

最佳答案

The column order might change from file to file.

您可以使用 awk 使用这种方法，它将空格分隔的标题列名称作为输入，并首先通过处理第一条记录将其转换为列号。一旦检索到所需的列号，我们就从下一行开始打印它们。

awk -v cols='col1 col3 col6' 'BEGIN {
   FS=OFS="\t"
   n = split(cols, a, " ")
   for (i=1; i <= n; i++)
      c[a[i]]
}
{
   sub(/\r$/, "")
}
NR == 1 {
   for (i=1; i<=NF; i++)
      if ($i in c)
         hdr[i]
}
{
   for (i=1; i<=NF; i++)
      if (i in hdr)
         s = sprintf(s "%s%s", OFS, $i)
   sub(OFS, "", s)
   print s
   s =""
} ' file | column -t

star      jdb               texp
epsInd    2400000.23551544  100.
epsInd    2400000.23551544  100.
epsInd    2400000.23551544  100.
HD217987  2400000.23551544  900.
TOI-134   2400000.23551544  900.
tauCet    2400000.23551544  60.
BD+01316  2400000.23551544  300.
BD+01316  2400000.23551544  300.
BD+01316  2400000.23551544  300.
BD+01316  2400000.23551544  300.

PS:添加了 column -t 以表格格式输出。

关于awk - 从制表符分隔的文件中提取列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56132249/

38

4

0

文章推荐： babylonjs - 直接将本地文件加载到Babylonjs场景中

文章推荐： python - Flask 错误 werkzeug 路由故障排除

文章推荐： reactjs - Material-ui:扩展面板和折叠面板的区别

文章推荐： python - 如何将图例标题的一部分加粗(不是整个图例标题)

awk - 从 awk 文件执行另一个 awk
是否可以从 awk 文件执行另一个 awk 文件？使用 awk 文件我需要执行当前文件夹中的所有 awk 文件。是否可以在 awk 中进行此类操作？最佳答案是的你可以。您需要使用 system()
awk - 为什么 awk "not in"数组像 awk "in"数组一样工作？
这是一个 awk 脚本，它尝试根据第一列设置两个文件的差异: BEGIN{ OFS=FS="\t" file = ARGV[1] while (getline < file)
awk - awk 中的并行处理？
awk 逐行处理文件。假设每一行操作不依赖于其他行，有没有办法让 awk 一次并行处理多行？是否有任何其他文本处理工具可以自动利用并行性并更快地处理数据？最佳答案唯一试图提供 awk 并行实现的
awk - awk 中的两个文件处理
我有文件: 结果.txt Apple fruits 10 20 30 Car vehicle 40 50 60 Book study 70 80 90 假设这里第 2 列是特征，第 3 列是最小值
awk - awk 中的小窍门
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
awk - awk 中的浮点计算
我对 awk 的行为感到惊讶表演时浮点数计算。它导致我对表格数据进行错误计算。 $ awk 'BEGIN {print 2.3/0.1}' 23 0.1}' )。那么我应该如何执行大于 (
awk - awk 输出中的额外空间
为什么我在下面的例子中得到分隔符前后的空格？ awk -F'^' '{print $1,":",$2}' SERVER_2012-02-29-12-15-00 3969 : 1272 3969 :
awk - Awk:如何每四行替换一个字符串？
我有一个文件，其中每四行是这样的： HISEQ15:454:D27KKACXX:6:2316:16241:100283 1:N:0:GTTTCG （对于那些感兴趣的人，此文件包含DNA序列）我需
awk - 合并系列并识别它的结尾 - AWK
你能帮我按 $2 列中的坐标合并行吗？有一系列坐标以一个为单位增长。我想输出 f.e. :第 1 行合并到第 4 行 9079811-9079814，之后没有系列，因此将其合并到另一行等。对于输入中的
awk - awk 是二维数组还是类似于存储值的东西？
大家好，我是 awk 的新手，我可以问一下我有这样的输入文件吗: # ABC DEFG value1 GH value2 GH value3 GH # BCF SQW value4 GH value5
awk - awk 中括号的位置
大家好，我想问一下，我对awk中的括号{}感到非常困惑，就像我写了一段代码 { FNR == 3 { print $1 " age is " $2 } } 但它在外括号上给了我错误但没有在打印语
awk - awk 中的多行注释
我想知道如何在 awk 中使用多行注释。到目前为止，我一直在使用 # 来评论一行。有人可以就此指导我。谢谢你。最佳答案 AWK 中没有多行注释，但如果需要，您可以伪造它。这是一种至少适用于 GNU
awk - AWK AND运算子
关于AND逻辑运算符的一个基本问题。我试图根据第1列和第2列的值提取数据文件niveles.csv中的某些字段。我想写一个awk语句，说“当field1 = date和field2 = area然后打
awk - AWK 中的忽略大小写
以下命令按预期工作。 # some command | awk '/(\|\|\)/,/;/' create table todel1 (id int) max_rows=2 /*!*/; alter
awk - awk 中连接字符串
我有一个日志文件，需要在服务器上“重播”。它包含这样的条目: Request: query: EXEC prc_insert_customer @param0: 11
awk - awk 中的制表符分隔值
如何从制表符分隔的字符串中选择第一列？ # echo "LOAD_SETTLED LOAD_INIT 2011-01-13 03:50:01" | awk -F'\t' '{prin
awk - awk 如何将文件名作为输出中的一列？
我正在尝试在目录中的多个文件的内容中执行一些 grep 并将我的 grep 匹配附加到单个文件中，在我的输出中我还想要一个包含文件名的列，以了解哪些文件条目已被拾取。我试图使用 awk 来实现相同的目
awk - awk 中的绝对值不起作用？
我想选择文件中第9列的绝对值小于500的行。列有时为正，有时为负。 awk -F'\t' '{ if ($9 output.bam 到目前为止这不起作用..互联网上的一轮告诉我，要使用绝对值，我们应
awk - awk 的第一个和第二个输入文件是否可能有不同的行为？
例如，假设我运行以下命令: gawk -f AppendMapping.awk Reference.tsv TrueInput.tsv 假设文件名会改变。在遍历第一个文件时，我想创建一个映射。 map
awk - 尝试将转义字符作为变量传递给 awk
我正在使用这个命令； awk -v regex1='new[[:blank:]]+File\(' 'BEGIN{print "Regex1 =", regex1}' 这警告我； awk: warnin

首页

博学

6Ren·AI

商城

awk - 从制表符分隔的文件中提取列