awk - 仅当 '\n' 的出现多于一个数字时，才用空格替换 '\t'-6ren

awk - 仅当 '\n' 的出现多于一个数字时，才用空格替换 '\t'

转载作者：行者123 更新时间：2023-12-01 08:49:30

26

4

我有数以万计的制表符分隔的数据文件，每个都喜欢:

a0\ta1\ta2\ta3\ta4\ta5\ta6\ta7\ta8\ta9\n
b0\tb1\tb2\tb3\tb4\tb5\tb6\tb7\tb8\tb9\n
...

但是，偶尔会有一些文件包含(随机)格式错误的行，例如:

a0\ta1\ta2\ta3_0\n
a3_1\ta4\ta5\ta6\ta7\ta8\ta9\n
b0\tb1\tb2_0\n
b2_1\tb3\tb4\tb5\tb6\tb7\tb8\tb9\n
...

其中 a3_0、a3_1(分别为 b2_0、b2_1)是 a3 (b2 resp.) 最初由空格分隔。仅当行太短或 \t 太少时，我想用空格替换行尾的每个 \n。目前 5 似乎是一个安全的阈值。

我经常用sed做一些修改，比上面的要简单很多。我想知道 sed 或其他一些命令(如 awk? 我还需要学习)是否可以用于快速处理(因为我有很多文件)。谢谢。

最佳答案

使用 GNU awk 处理多字符 RS 和 RT(以及后来的 -i infile 和 ENDFILE)并使用逗号而不是制表符来提高可见性:

$ cat file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0
a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0
b2_1,b3,b4,b5,b6,b7,b8,b9

$ awk -v RS='([^,]*,){9}[^\n]*\n' '{$0=RT; sub(/\n$/,"") gsub(/\n/," ")} 1' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

上面的 [ab-] 使用 RS 将每条记录(而不是记录分隔符)描述为一系列 10 个逗号分隔的字段，以换行符结尾，然后在打印之前在每条记录中适本地替换换行符。

只需将 RS='([^,]*,){9}[^\n]*\n' 更改为 RS='([^\t]*\t){9}[^\n]*\n' 使其可以使用制表符分隔而不是逗号分隔的字段。

要对所有文件进行更改，请添加 -i inplace:

awk -i inplace -v RS='...' '...' *

或:

find ... -exec awk -i inplace -v RS='...' '...' {} +

实际上，您甚至不必对 RS 进行硬编码，假设每个输入文件中至少有 1 行完整的行，该工具就可以解决:

$ awk -F',' '
    BEGIN { ARGV[ARGC] = ARGV[ARGC-1]; ARGC++ }
    NR==FNR { n=(NF>n?NF:n); next }
    ENDFILE { RS="([^"FS"]*"FS"){"n-1"}[^\n]*\n" }
    { $0=RT; sub(/\n$/,"") gsub(/\n/," "); print }
' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

只需将 -F',' 更改为 -F'\t' 即可进行制表符分隔。

使用 POSIX awks 仅供引用，上述两个 gawk 脚本的最接近等效项是:

$ awk '
    { rec=rec $0 RS }
    END{
        while ( match(rec,/([^,]*,){9}[^\n]*\n/) ) {
            tgt = substr(rec,RSTART,RLENGTH)
            sub(/\n$/,"",tgt)
            gsub(/\n/," ",tgt)
            print tgt
            rec = substr(rec,RSTART+RLENGTH)
        }
    }
' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

和:

awk -F',' '
    { rec=rec $0 RS; n=(NF>n?NF:n) }
    END{
        while ( match(rec,"([^"FS"]*"FS"){"n-1"}[^\n]*\n") ) {
            tgt = substr(rec,RSTART,RLENGTH)
            sub(/\n$/,"",tgt)
            gsub(/\n/," ",tgt)
            print tgt
            rec = substr(rec,RSTART+RLENGTH)
        }
    }
' file
a0,a1,a2,a3,a4,a5,a6,a7,a8,a9
b0,b1,b2,b3,b4,b5,b6,b7,b8,b9
a0,a1,a2,a3_0 a3_1,a4,a5,a6,a7,a8,a9
b0,b1,b2_0 b2_1,b3,b4,b5,b6,b7,b8,b9

请注意，那些在主处理开始之前将整个文件读入单个字符串的人，因此如果您的文件太大而无法放入内存但您已经告诉我们每个文件都“非常小”，那么它们就会失败应该不是问题。

要覆盖输入文件，最简单的方法总是:

awk '{...}' file > tmp && mv tmp file

但在这种情况下，您也可以这样做:

awk '{...} END{... print tgt > ARGV[1] ...}' file

这在这种情况下有效，因为 awk 在开始 END 部分之前已经完成了对输入文件的读取。不要在脚本的其他地方尝试。

关于awk - 仅当 '\n' 的出现多于一个数字时，才用空格替换 '\t'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45801586/

26

4

0

文章推荐： browser - 为 "Brave"浏览器设置开发者工具

文章推荐： java - 通过代码查找是哪个JKS

internet-explorer - 仅 Windows 7，仅 IE，认为我的网站证书有问题？
我仅在 WIN7 PC 上收到此通知，仅使用 IE。 Firefox 总是很好，旧版 Windows 上的 IE 似乎也不错。这让我大吃一惊，我不知道为什么 IE 认为 SSL 证书有问题。有没有人以
wix - 升级期间未复制文件(仅)
概述对于我产品的新版本 v1.9.0，我创建了一个新的 MSI 安装程序。该应用程序的先前版本是 v1.7.0。卸载旧版本然后安装新版本工作正常。但是当我尝试使用 v1.9.0 安装程序更新旧版
仅 JavaScript 按钮按下时平滑滚动
该网站有一个全高图像启动。更多内容位于首屏下方，图像底部有一个“滚动”元素，以提示用户发现其余内容。单击后，我成功地使网站向下滚动 300 像素。然而，我想顺利地做到这一点。这是我当前的代码: w
javascript - 动态创建类名。仅
var i = 0; function Myfunc() { var newdiv = document.createElement('div'); var el = document
仅 JavaScript 图像悬停
这纯粹是为了学习目的；我知道 CSS 将是这种情况下的首选方法。我知道在 JavaScript 中，您可以使用内联事件处理将鼠标悬停在图像上，如下所示: 我知道您可以在您的站点中安装 jQuery
仅 curl 发布数据和标题
我只想从curl请求中获取 header curl -I www.google.com 一切都很棒。现在我想这样做，但也传递发布数据: curl -I -d'test=test' www.google
javascript - 仅 getElementsByName？
以下代码旨在更改一个字段的颜色: Untitled Document var bkColor =
仅 Grep 第一个匹配项并停止
我正在使用 grep 递归搜索目录，并使用以下参数希望只返回第一个匹配项。不幸的是，它返回了不止一个——事实上，我上次查看时返回了两个。似乎我有太多的争论，尤其是没有得到想要的结果。 :-/ # gr
仅 grep 当前目录
我只想搜索当前目录中的所有文件。我试过这个 grep foo * 但我收到此错误 grep: bar: Is a directory 我也尝试过这个 grep -r foo 但这也在搜索子目录。最佳
JavaFx如何打印文本(仅)收据？
我正在构建一个销售点应用程序，我想打印一张收据。问题是我使用的打印机无法打印纯文本的任何图形，我在 javafx 中只能找到使用 Print API 打印节点或使用像 jasper 这样都包含图形的报
仅 Java 操作系统
是否有任何操作系统在完全加载时仅提供用于控制台应用程序执行的 java 环境？理想情况下，它会在加载时自动启动程序最佳答案这是一个名称为:JavaOS 的东西从我的角度来看，更好的方法是安装一个
仅 MySQL 转储还原增量
在工作中，我们有一个每晚执行 mysql 数据转储的脚本。对于开发，我们通常需要使用来自最近转储的数据。一段时间以来，我们一直每天都进行数据库还原，但现在我们已经到了每天还原花费近一个小时的地步。有没
javascript - 需要禁用下拉菜单的淡出功能(仅)
我的移动模式菜单有问题。 onClick 它淡出。我想保留此设置，但我不希望它在单击下拉部分时淡出。这是链接:http://jsfiddle.net/zLLzrs6b/3/感谢您的帮助! html:
仅 css 在屏幕尺寸变化时调整图像大小的灵活布局
经过大量研究和反复试验，我谦虚地向各位 CSS 专家寻求帮助。这就是我需要的: 我有两张图片:titlelogo 和 newlogo。在全屏模式下，newlogo 需要在左边，titlelogo 在
javascript - 选择具有特定属性的标签(仅)
这个问题在这里已经有了答案: Exclusive CSS selector (3 个答案) 关闭 3 年前。我的文档结构如下: ... ... something something someth
html - 强制可变宽度表格列内容以最大宽度换行*仅*
我有一个具有以下要求的表: 所有列的宽度必须可变所有列的宽度不得超过必要的宽度所有单元格必须保留空白(white-space:pre/pre-wrap) 当(且仅当)超过最大定义宽度 (1000p
c++ - 具有特殊字符的数字的正则表达式**仅**
我正在寻找一个正则表达式来仅匹配具有特殊字符且大小为4+ 的数字字符串。我对此处发布的问题做了一些评论: 测试网站: http://regexlib.com/RETester.aspx 1- re
仅 CSS 灯箱解决方案
我正在为我的元素开发一个纯 CSS 灯箱解决方案。我用谷歌搜索了它，但到目前为止只找到了部分解决方案。我正在寻找这些功能: 显示任意宽任意高的内容(无固定高/宽) 垂直居中和水平居中如果内容宽度和
仅 CSS 网格布局
出于各种原因，我目前正在尝试使用 HTML/CSS 创建网格布局(我知道 Bootstrap 等，但在这种情况下没有选择，而且我无法添加标记元素)。我有以下代码(容器 div，每次都有一个带有 ul
仅 Java 字符串格式小数
有没有办法使用String.format()格式化 double 以仅获取小数？ System.out.println(String.format("%.2f", 1.23456d)); 正如预期的那

首页

博学

6Ren·AI

商城

awk - 仅当 '\n' 的出现多于一个数字时，才用空格替换 '\t'