regex - 管道分隔的文件，其中有空条目；转换为制表符分隔的，中间用'<empty>'-6ren

regex - 管道分隔的文件，其中有空条目；转换为制表符分隔的，中间用''

转载作者：行者123 更新时间：2023-11-29 09:13:50

27

4

问题
我得到了一个管道分隔的文本文件，其中包含每个文件的文件名和一些索引信息。我的目标是使它成为一个制表符分隔的文件。但是，我想知道空条目在哪里。这将完成，例如当lorem||dolor变成lorem'\t'<empty>'\t'dolorsed时。
让我再举几个例子来说明我得到了什么和想要什么：
有多行的示例：（N.B.每行有相同数量的条目。）
鉴于：

||dolor|sit
amet,||adipiscing|
sed|do|eiusmod|tempor

渴望的：

<empty> '\t' <empty> '\t' dolor '\t' sit '\n'
amet, '\t' <empty> '\t' adipiscing '\t' <empty> '\n'
sed '\t' do '\t' eiusmod '\t' tempor '\n'

在开始和结束处为空条目。
鉴于：

|ut|labore||dolore||

渴望的：

<empty> '\t' ut '\t' labore '/t' <empty> '\t' dolore '\t' <empty> '\t' <empty>

（我不想要空格，我只是觉得这样可以使所需的格式更易于阅读。）
问题在于连续的空条目。我得到的文件可以有1到36个连续的管道（0到37个连续的空条目）
澄清
解决方案不必是 awk、 grep、 tr、 perl、 python等。这些只是我看到的解决方案。也欢迎使用 sed或 <empty>脚本（或任何其他我没有想到的想法）。
我的尝试和研究
对于我在研究之前和研究期间所做的尝试，命令和它们的输出作为图像 1和文本文件 2包含，以避免问题过于混乱。
My Attempts image
My Attempts text
链接到我查找的内容--查找带有 >的连续管道（并替换任何此类管道系列）：ref. here；计算空字段的数量（可能有助于了解需要多少个 ^I）：ref. here；最长序列：ref here；
系统信息

$ uname -a
CYGWIN_NT-10.0 A-1052207 2.5.2(0.297/5/3) 2016-06-23 14:29 x86_64 Cygwin
$ bash --version
GNU bash, version 4.3.42(4)-release (x86_64-unknown-cygwin) ...
$

我在Windows 10上运行这个版本的Cygwin（因为作业需要它）
编辑1
我不清楚到底想要什么。
下面是一个简短的示例，显示了我希望在开头和结尾使用管道的情况：
（如果键入第一行、按enter键、键入第二行、按enter键等，您将看到并需要键入此内容。无法复制/粘贴，因为 bash仅在您在上一行按enter键后才显示。）

$ cat > myfile.txt<<EOF
> ||foo|||bar||
> EOF

$ <**command-to-be-used**> myfile.txt | cat -A
<empty>^I<empty>^Ifoo^I<empty>^I<empty>^Ibar^I<empty>^I<empty>$

其中 '\t'是我的 <empty>版本显示 labore的方式。通过使用我给出的示例文本给出的答案，我意识到我希望在 '\t'之后的结尾处有一个 labore（参见下面的命令）。请注意，收到的答案（感谢@Neil_McGuigan和@Ed_Morton）在 <empty>之后确实给出了 \，而不是

<empty>^I<empty>^Ilorem^Iipsum^I<empty>^Isit^Iamet,^I<empty>^I<empty>^I<empty>^Ieiusmod^Itempor^I<empty>^I<empty>^Ilabore^I<empty>$
9 entries are empty

。这是我的错，因为我在最初的描述中不够清楚。我很抱歉。
我只需稍微调整一下@Neilôu McGuigan的命令就可以完成我的目标。注意，如果您想如图所示逐行键入这个“line-by-line”，您需要在每行的末尾包括一个空格和一个 stderr。

$ echo "||lorem|ipsum||sit|amet,||||eiusmod|tempor|||labore|" | 
  awk '
       {
         $1=$1; n_empty=0; 
         for(i=1; i<=NF; i++) 
         { 
           if($i=="") {$i="<empty>"; n_empty++;}
         }; 
         print
       }
       END {print n_empty" entries are empty" | "cat 1>&2";}
      ' FS='|' OFS=$'\t'
   | cat -A

给出结果：

<empty>^I<empty>^Ilorem^Iipsum^I<empty>^Isit^Iamet,^I<empty>^I<empty>^I<empty>^Ieiusmod^Itempor^I<empty>^I<empty>^Ilabore^I<empty>$
9 entries are empty

同样，对于那些不想滚动的用户，输出如下：
>
（请注意，写入 cat -A的空条目的计数是不必要的，但这很好。）
对不起，我不清楚我想要什么。
我成功使用的东西
多亏了“尼尔·麦奎根”和“埃德·莫顿”，我才找到了我正在寻找的解决方案。我的最后命令如下：

$ awk '{$1=$1; n_empty=0; for(i=1; i<=NF; i++) {if($i=="") {$i="<empty>"; n_empty++;}}; print;} END {print n_empty" entries are empty" | "cat 1>&2";}' FS='|' OFS=$'\t' file_pipe-delim.txt > file_tab-delim.txt

$

为了防止您不想滚动，下面是相同的命令：

$ awk '{$1=$1; for(i=1; i<NF; i++){ if($(i)=="")$(i)="<empty>" }; print}'
  FS='|' OFS=$'\t' file_pipe-delim.txt | sed 's/\t$/\t<empty>/g' > 
  file_tab-delim.txt

$

下面是生成、转换和保存文件的示例：
（如果键入第一行、按enter键、键入第二行、按enter键等，您将看到并需要键入此内容。无法复制/粘贴，因为 ^I仅在您在上一行按enter键后才显示。）

$ cat > file_pipe-delim.txt<<EOF
> ||dolor|sit
> amet,||adipiscing|
> sed|do|eiusmod|tempor
> |||
> |aliqua.|Ut|
> EOF

$ awk '{$1=$1; n_empty=0; for(i=1; i<=NF; i++) 
{if($i=="") {$i="<empty>"; n_empty++;}}; print;} END 
{print n_empty" entries are empty" | "cat 1>&2";}' 
FS='|' OFS=$'\t' file_pipe-delim.txt > file_tab-delim.txt


$ cat -A file_tab-delim.txt
<empty>^I<empty>^Idolor^Isit$
amet,^I<empty>^Iadipiscing^I<empty>$
sed^Ido^Ieiusmod^Itempor$
<empty>^I<empty>^I<empty>^I<empty>$
<empty>^Ialiqua.^IUt^I<empty>$

$

最后，让我们把给我带来麻烦的绳子还给我。我们可以得到所需的输出如下：

$ echo "||lorem|ipsum||sit|amet,||||eiusmod|tempor|||labore|" | awk '{$1=$1; n_empty=0; for(i=1; i<=NF; i++) {if($i=="") {$i="<empty>"; n_empty++;}}; print;} END {print n_empty" entries are empty" | "cat 1>&2";}' FS='|' OFS=$'\t' | cat -A
<empty>^I<empty>^Ilorem^Iipsum^I<empty>^Isit^Iamet,^I<empty>^I<empty>^I<empty>^Ieiusmod^Itempor^I<empty>^I<empty>^Ilabore^I<empty>$
9 entries are empty

现在，相同的命令没有到 '\t'的管道，这意味着我们不会看到每个的；我们只会看到文本作为“选项卡”

$ echo "||lorem|ipsum||sit|amet,||||eiusmod|tempor|||labore|" | \ 
awk '{$1=$1; n_empty=0; for(i=1; i<=NF; i++) \
{if($i=="") {$i="<empty>"; n_empty++;}}; print;} END \
{print n_empty" entries are empty" | "cat 1>&2";}' \
FS='|' OFS=$'\t'

<empty> <empty> lorem   ipsum   <empty> sit     amet,   <empty> <empty> <empty>eiusmod  tempor  <empty> <empty> labore  <empty>
9 entries are empty

最佳答案

awk '
     {
       $1=$1; 
       for(i=1; i<NF; i++) { 
         if($i=="") { $i="<empty>"; empty++ }
       }; 
       print
     }
     END { print empty" empty" | "cat 1>&2"; }
' FS='|' OFS=$'\t'

应该会成功的。$1=$1告诉awk“重建”输入字段，以便它们可以与新的OutputFieldSeparator（OFS）一起使用。
print empty" empty" | "cat 1>&2"将“n empty”打印到stderr。如果你愿意可以省略

关于regex - 管道分隔的文件，其中有空条目；转换为制表符分隔的，中间用'<empty>'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38880006/

27

4

0

文章推荐： bash - 紧急覆盖 bash 中损坏的命令完成？

文章推荐： php - 帮助了解 MySQL 进程列表描述/含义

文章推荐： MySql 触发器不会计算

javascript - 多个选择的复选框下拉列表由 ; 分隔
我正在尝试从下拉列表中创建一个多选复选框，并通过 ; 连接所选结果。我的代码是这样的: var myobject = { ValueA : 'Text A', ValueB : 'T
javascript - 获取输入值并以 "|"分隔
我有输入，我需要获取值并用 “|” 符号分隔。我的输入: 输出我需要的: 00:00|00:00|00:00 我的代码是: (而且它不工作) var timesArray = $('table').
mysql - 数据库中的拆分数字由破折号 (-) 分隔
我正在尝试将超过 400 万行的列拆分为 4 个新列，问题是我不知道在哪里查看或我应该使用 Google 搜索哪个术语。 (是的，我已经在 Google 和 Stack 中搜索了一个类似的问题，但只在
javascript - 分隔 .CSV 文件中的数字
我有一个很大的 csv 文件，其中充满了用“|”分隔的数字字符，例如: 432452 | 543634 4122442 | 41256512 64523 | 12416 然后我读入数据如下: fs
C# 分隔 args 参数
我有一个程序可以计算多个数字的阶乘。这些数字在 cmd 中作为参数传递: factorial.exe 3 4 5 这将分别计算 3、4 和 5 的阶乘。该程序的早期版本有一个百分比显示堆栈的完整性。我
java - java中根据 "."分隔 double
这个问题已经有答案了: 奥 git _a (6 个回答) 已关闭 9 年前。我有一个双数“547.123456” 我只想使用这个 double 作为“547.1”，就像“.”后面只有 1 个数字我
C# 分隔 args 参数
我有一个程序可以计算多个数字的阶乘。这些数字在 cmd 中作为参数传递: factorial.exe 3 4 5 这将分别计算 3、4 和 5 的阶乘。该程序的早期版本有一个百分比显示堆栈的完整性。我
java - 分隔 arraylist 的元素
我有一个 ArrayList，其中包含一个 messageId、一个 -、一个用户名。示例:E123-sam 我想划分 List 的每个元素，使得 - 之前的部分进入一个 ArrayList ，而之
python - 分隔 Pandas 数据框中共享同一列的月份和年份
我目前有一个“日期”列作为 pandas 数据框的索引，其格式为: January February .... Year2 January February ... Year3 (它来自 pdf 表格
c - mdb工具sql查询表 namespace 分隔
我正在尝试对我的 .mdb 数据库进行 ODBC 查询。我正在使用 mdbtools 驱动程序。该代码是使用 Eclipse 用 C 语言编写的。唯一的问题是，当我写例如: "SELECT 'last
java - 分隔 "if else"语句
我需要知道如何将这两个if else 部分分开。 public static int NextBday(int Bdays, int days){ int daysleft = 0;
mysql - 如何使用计数一列并由每个 id 分隔
我想计算我的员工分开但合并在一起的出勤率 My target output 我的代码 SELECT count(employees_id) as numbers FROM attendance WH
php - 我想在一个单独的列中插入多封电子邮件，并用 # 分隔
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 7 年前。 Improve t
java - 分隔 arraylist 中的每个项目
下面是我的代码的一小段摘录，它从 API 添加了一行。总共有很多行。每一行包含一行数据如 TY8tr,50,34,P,SB, 数据行在数据类型上是一致的。我如何通过 ,'s 拆分数组列表中
javascript - 获取选中的元素并用逗号分隔它们，最后一个元素用 "and"分隔
我想获取选中的元素并用逗号分隔它们，最后一个元素用“and”分隔它的显示输出为: 我想删除最后一个元素后面的逗号 (,) 并在它前面添加 'and'，例如 Sugar, Milk and Extra
javascript - 分隔 JSON 对象的值
我是 JSON 的新手，但在从已解析的 JSON 对象中提取数据时遇到问题: 我有一个 getstats.php 文件，它回显 mysql 查询的 json 编码结果。以下是 php 文件返回的示例:
C++ 字符串解析以 0 分隔
我有一个像这样的数字/字符串(我不确定如何将 int 与字符串相互转换) 000000122310200000223340000700012220000011411000000011011271043

python - 分隔

标签内的文本

我想尝试一些基本的网络抓取，但遇到了一个问题，因为我习惯了简单的 td-tags，在这种情况下，我有一个网页，其中包含以下预标记和其中的所有文本，这意味着刮掉它有点棘手。 11111111 1111

C# 分隔 TCP 消息
出于练习目的，我正在开发 TCP 客户端/服务器系统，我想在两者之间发送特定数据。我已经能够发送字节并让它们显示为字符串。此外，我还可以发送一个特定的字符串(“mb”)并在服务器端弹出一个 Mess
java - 分隔 Unicode 连字字符
在大量的 unicode 字符中，有一些实际上表示多个字符，例如两个 'f' 字符的 U+FB00 连字 ff。有什么方法可以轻松地将这样的字符转换为多个单个字符？最好是标准 Java API 中可用

首页

博学

6Ren·AI

商城

regex - 管道分隔的文件，其中有空条目；转换为制表符分隔的，中间用''