bash - 在终端中根据括号或括号(仅限顶级)拆分文本文件-6ren

bash - 在终端中根据括号或括号(仅限顶级)拆分文本文件

转载作者：行者123 更新时间：2023-11-29 09:31:04

25

4

我有几个要在 shell 脚本中处理的文本文件 (utf-8)。它们的格式并不完全相同，但如果我只能将它们分解成可食用的 block ，我就可以处理。这可以用 C 或 Python 编程，但我不喜欢。

EDIT: I wrote a solution in C; see my own answer. I think this may be the simplest approach after all. If you think I'm wrong please test your solution against the more complicated example input from my answer below.

-- jcxz100

为了清楚起见(并且能够更轻松地进行调试)，我希望将 block 保存为子文件夹中的单独文本文件。

所有类型的输入文件包括:

垃圾线路
带有垃圾文本的行后跟开始方括号或圆括号 - 即 '[' '{' '<' 或 '(' - 可能后跟有效负载
有效载荷线
括号或圆括号嵌套在顶级对中的行；也被视为有效负载
带有结束括号或圆括号的有效负载行 - 即 ']' '}' '>' 或 ')' - 可能后跟某些内容(垃圾文本和/或新有效负载的开头)

我只想根据顶层括号/圆括号的匹配对来分解输入。这些对中的有效负载不得更改(包括换行符和空格)。顶级对之外的所有内容都应作为垃圾丢弃。

双引号内的任何垃圾或有效载荷都必须被视为原子(作为原始文本处理，因此其中的任何方括号或圆括号也应被视为文本)。

这是一个示例(仅使用 {} 对):

junk text
"atomic junk"

some junk text followed by a start bracket { here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
} trailing junk
intermittent junk
{
   payload that goes in second output file    }
end junk

...抱歉:某些输入文件确实如此困惑。

第一个输出文件应该是:

{ here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
}

...和第二个输出文件:

{
   payload that goes in second output file    }

注意:

我还没有完全决定是否有必要在输出中保留这对开始/结束字符，或者它们本身是否应该作为垃圾丢弃。我认为保留它们的解决方案是更普遍的用途。
在同一输入文件中可以混合使用多种类型的顶级括号/括号对。
注意:输入文件中有 * 和 $ 字符，因此请避免混淆 bash ;-)
相比简洁，我更喜欢可读性；但速度不会呈指数级增长。

锦上添花:

文本中有反斜杠转义的双引号；最好他们应该被处理(我有一个 hack，但它并不漂亮)。
脚本不应中断垃圾和/或负载中不匹配的括号/圆括号对(注意:在原子内部，它们必须被允许!)

更多的好东西:

我还没有看到它，但可以推测某些输入可能使用单引号而不是双引号来表示原子内容……甚至是两者的混合。
如果可以轻松修改脚本以解析具有相似结构但具有不同开始/结束字符或字符串的输入，那就太好了。

我看得出来这很啰嗦，但我认为如果我将它分解成更简单的问题，它不会提供可靠的解决方案。

主要问题是正确分割输入——其他一切都可以忽略或通过黑客“解决”，所以随意忽略nice-to-haves 和more-far-out-nice-to-haves。

最佳答案

给定:

$ cat file
junk text
"atomic junk"

some junk text followed by a start bracket { here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
} trailing junk
intermittent junk
{
   payload that goes in second output file    }
end junk

此 perl 文件会将您描述的 block 提取到文件 block_1、block_2 等中:

#!/usr/bin/perl
use v5.10;
use warnings;
use strict;

use Text::Balanced qw(extract_multiple extract_bracketed);

my $txt;

while (<>){$txt.=$_;}  # slurp the file

my @blocks = extract_multiple(
    $txt,
    [
        # Extract {...}
        sub { extract_bracketed($_[0], '{}') },
    ],
    # Return all the fields
    undef,
    # Throw out anything which does not match
    1
);
chdir "/tmp";
my $base="block_";
my $cnt=1;
for my $block (@blocks){ my $fn="$base$cnt";
                         say "writing $fn";
                         open (my $fh, '>', $fn) or die "Could not open file '$fn' $!";
                         print $fh "$block\n";
                         close $fh;
                         $cnt++;}

现在是文件:

$ cat block_1
{ here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
}

$ cat block_2
{
   payload that goes in second output file    }

使用 Text::Balanced 是可靠的并且可能是最佳解决方案。

您可以使用单个 Perl 来完成这些 block regex :

$ perl -0777 -nlE 'while (/(\{(?:(?1)|[^{}]*+)++\})|[^{}\s]++/g) {if ($1) {$cnt++; say "block $cnt:== start:\n$1\n== end";}}' file
block 1:== start:
{ here is the actual payload
   more payload
   "atomic payload"
   nested start bracket { - all of this line is untouchable payload too
      here is more payload
      "yet more atomic payload; this one's got a smiley ;-)"
   end of nested bracket pair } - all of this line is untouchable payload too
   this is payload too
}
== end
block 2:== start:
{
   payload that goes in second output file    }
== end

但这比使用像 Text::Balanced 这样的正确解析器要脆弱一些......

关于bash - 在终端中根据括号或括号(仅限顶级)拆分文本文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53835995/

25

4

0

文章推荐： bash:glob否定和多种模式的问题

文章推荐： regex - 在 SED 中使用变量

文章推荐： java - URL 太长时被截断

文章推荐： bash - 如何使用 Expect 从 URL 运行文件？

Guake 终端：一个灵感来自于 FPS 游戏的 Linux 终端
使用 Guake 终端这个可自定义且强大的适合各种用户的工具快速访问你的终端。 Guake 终端：GNOME 桌面中自上而下终端 Guake 是一款为 GNOME
python - 如何更改 Visual Studio 代码中的终端以使用非 Rosetta 终端，即让它使用 arm64 终端？
我是 python 的新手，正在尝试运行 python 2.7 script .获得了 python 2.7 的 pip 并从 mac 终端 shell 安装了 pyCrypto 的依赖项。我想尝试
swift +终端
我正在寻找一种在 Swift (macOS) 中运行终端命令的方法。我遇到了this发布，但我似乎无法获得任何解决方案。我正在尝试从我的应用程序关闭我的 mac，就像您可以从终端执行的那样(osasc
bash 终端，希望光标显示在下一行的开头
我在 macOS 上使用 bash 终端。用户名、计算机名和文件路径占据了大部分行，所以如果我写一个长命令，我会从一行开始，然后在下一行继续。相反，我希望行光标从用户名和计算机名下方的下一行开始。
perl - 终端:我在哪里？
是否有一个变量或函数可以告诉我光标的实际位置？ #!/usr/bin/env perl use warnings; use 5.012; use Term::ReadKey; use Term::Ca
gnuplot tikz 终端
如何在 Mac Os X(10.6.8) 上的 gnuplot 中启用 tikz 终端？我有工作 tikz 的 latex 。现在我从 http://www.lua.org/ 安装了 lua并下载g
macos - 终端:shell启动文件在哪里？
我正在学习一个名为 Starting a Django 1.4 Project the Right Way 的教程，其中提供了有关如何使用 virtualenv 和 virtualenvwrapper
Java Unix 终端
我正在尝试用java编写一个unix终端模拟器。我有很多麻烦。我似乎无法更改程序的工作目录，因此“cd”等命令无法正常工作。我的问题是，如果我运行一个需要用户输入的命令，有什么方法可以将该输入发送到正
终端 sudo 命令
我在这方面完全是个新手(Mac leopard 中的终端)，我希望能从网络上获得生命线，因为我确实碰壁了。我想在终端中以 root 身份运行脚本。该脚本保存为扩展名为 .rtf 的文本文件。我已经插
终端 Applescript 无法逃脱报价
尝试在我的 osascript 命令中包含引号 ' ' 时遇到了一个奇怪的问题。如果我尝试转义一个正常的可转义字符，它就可以正常工作。示例: osascript -e 'tell app "Find
java - 获取系统日志的完整输出(终端)
我正在制作一个控制台 Java 应用程序，您可以在其中输入控制台命令，例如 Macintosh/Ubuntu/Windows 命令提示符上的终端，然后将其输出到日志。我想知道，在执行系统/控制台命令
mysql - 终端，MySQL如何退出插入模式？
在终端中输入 mysql 命令并按回车键会换行。但有时当我犯错时，即使用分号结束语句也无法退出此模式。 Ctrl + c 退出mysql。我怎样才能退出插入模式？最佳答案你必须用 ';' 结束
在xeyes(终端)中永久改变中心颜色的c代码
我正在尝试编写一个 C 代码来打开 xeyes 应用程序，然后那些眼睛在特定的时间段内不断改变其颜色.. 我尝试通过执行具有一种中心颜色的 xeyes、添加 3 秒的延迟、终止进程并在循环内打开具有另
java - 在消息的同一行输入(终端)
是否有一种语法允许我在 System.out.println() 行的同一行中读取用户的输入？例子: What is your name?:(<-- Output) Jack (<-- In
bash - 递归地将嵌套文件夹内容复制到一个文件夹(终端)
我有一个 Wordpress 上传文件夹，该文件夹使用子文件夹构建了几个月。 wolfr2:uploads wolfr$ tree . . |-- 2007 | |-- 08 | | |-
ios - SQLite3 终端
如何从 mac 终端使用 sqlite3 找出表的列名？我忘记了我给这些列起的名字，我也不知道这些名字是怎么来的。谢谢! 最佳答案来自 http://www.sqlite.org/sqlite.ht
linux - 终端:发送禁止操作转义序列或控制字符
我需要我的终端发送一个未使用的控制字符或转义序列，它在所有层都没有效果：被shell（bash，…）忽略，被行编辑器（readline，…）忽略，被所有应用程序（vim，less，mutt，…）忽略。
支持全键盘的 Linux 终端？
我做了一个文本编辑器，我想把它移植到 Linux 上，这样我就可以通过 SSH 远程使用它。我不太了解 Linux 终端，所以也许我遗漏了一些明显的东西，因为我简直不敢相信在 2013 年远程终端仍然
java - 运行java类文件的简单方法(终端)
我最近想放一个 java 类文件供下载，人们可以在终端中运行它。这是一个 Minecraft 命令生成器，因此下载它的人不一定具有最大的心智能力(当然，我指的是 8 岁的 child ，他们不知道自己
c - 终端:来自文件的程序输入
我有一个文件“test.txt”，里面有一个数字列表，就像这样 1 3 4 2 3 40 312 53 243 321 423 ...etc 我还有一个可执行文件，它是一种排序算法，例如 hea

首页

博学

6Ren·AI

商城

bash - 在终端中根据括号或括号(仅限顶级)拆分文本文件