bash - 使用 GREP 对数据进行子集化-6ren

bash - 使用 GREP 对数据进行子集化

转载作者：行者123 更新时间：2023-11-29 09:25:27

26

4

我有一个非常大的文本文件 (16GB)，我想尽快对其进行子集化。这是所涉及数据的示例

0   M   4   0   
0   0   Q   0   10047345    3080290,4098689 50504886,4217515    9848058,1084315 50534229,4217515    50591618,4217515    26242582,2597528    34623075,3279130    68893581,5149883    50628761,4217517    32262001,3142702    35443881,3339757
0   108 C   0   50628761
0   1080    C   0   50628761
1   M   7   0
1   0   Q   0   17143989    
2   M   15  1   
2   0   Q   0   17143989    4219157,1841361,853923,1720163,1912374,1755325,4454730  65548702,4975721    197782,39086    54375043,4396765    31589696,3091097    6876504,851594  3374640,455375  13274885,1354902    31585771,3091016    61234218,4723345    31583582,3091014
2   27  C   0   31589696

每行的第一个数字是 sessionID，任何带有“M”的行都表示 session 的开始(数据按 session 分组)。 M 后面的数字是 Day，第二个数字是 userID，一个用户可以有多个 session 。

我想提取与特定用户相关的所有行，每个 session 包括所有行，直到遇到下一个“M”行(可以是任意数量的行)。作为第二个任务，我还想提取与特定日期相关的所有 session 行。

例如，对于上述数据，要提取用户 ID“0”的记录，输出将是:

0   M   4   0   
0   0   Q   0   10047345    3080290,4098689 50504886,4217515    9848058,1084315 50534229,4217515    50591618,4217515    26242582,2597528    34623075,3279130    68893581,5149883    50628761,4217517    32262001,3142702    35443881,3339757
0   108 C   0   50628761
0   1080    C   0   50628761
1   M   7   0
1   0   Q   0   17143989

要提取第 7 天的记录，输出将是:

1   M   7   0
1   0   Q   0   17143989

我相信对于我目前所取得的成就，有一个更优雅、更简单的解决方案，如果能得到一些反馈和建议，那就太好了。谢谢。

我尝试过的

我尝试使用 pcrgrep -M 直接应用此模式(匹配两个 M 之间的数据)，但很难让它在换行符上正常工作。我仍然怀疑这可能是最快的选择，因此任何关于这是否可能的指导都会很好。

下一部分比较零散，如果您已经有了更好的解决方案，则无需继续阅读!

如果无法满足上述要求，我将问题分为两部分:

第 1 部分:隔离所有“M”行以获得属于该用户/天的 session 列表
1. grep 方法很快(然后需要弄清楚如何使用这些数据)
  时间 grep -c "M\t.*\t$user_id"trainSample.txt >> sessions.txt
2. awk 方法创建数组很慢
  time myarr=$(awk '/M\t.*\t$user_id/{print $1}' trainSample.txt
第 2 部分:在第 1 部分中创建的列表中提取属于某个 session 的所有行
1. 继续 awk 方法，我为每个方法都运行了 grep，但这太慢了(完成 16GB 需要几天时间)
```
for i in "${!myarr[@]}"; 
do 
  grep "^${myarr[$i]}\t" trainSample.txt >> sessions.txt
  echo -ne "Session $i\r"
done
```
2. 与其像上面那样为每个 session ID 运行一次 grep，不如在一个 grep 命令中全部使用它们要快得多(我使用 [1|2|3|..|8] 格式的 8 个 session ID 运行它，并且它花费的时间与每个人分别花费的时间相同，即快 8 倍)。但是我需要弄清楚如何动态地执行此操作

更新

我实际上已经建立了一个只需几秒钟即可完成的工作解决方案，但它是一些困惑且不灵活的 bash coe，我还没有扩展到第二种情况(按天隔离)。

最佳答案

I want to extract all lines related to a specific user which for each session include all of the lines up until the next 'M' line is encountered (can be any number of lines).

$ awk '$2=="M"{p=$4==0}p' file
0   M   4   0   
0   0   Q   0   10047345    3080290,4098689 50504886,4217515    9848058,1084315 50534229,4217515    50591618,4217515    26242582,2597528    34623075,3279130    68893581,5149883    50628761,4217517    32262001,3142702    35443881,3339757
0   108 C   0   50628761
0   1080    C   0   50628761
1   M   7   0
1   0   Q   0   17143989

As a second task I also want to extract all session lines related to a specific day.

$ awk '$2=="M"{p=$3==7}p' file
1   M   7   0
1   0   Q   0   17143989

关于bash - 使用 GREP 对数据进行子集化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39847267/

26

4

0

文章推荐： bash - 如何覆盖 pushd 和 popd 对 dirs 的自动调用？

文章推荐： java - 在 Eclipse 中创建一个透视菜单

文章推荐： java - JDBC CallableStatement 和 Oracle SYS_REFCURSOR IN 参数？

文章推荐： bash - 与托管以太坊节点的操作系统交互

bash - IntelliJ : System bash and IntelliJ bash are not the same
我用 IntelliJ IDEA 2021.1 CE 在流行!_OS 20.04 与 bash 5.0.17 . 问题造句:我将IntelliJ终端设置为/bin/bash通过 IntelliJ 设
bash - 是否有 bash 命令来显示 bash 快捷方式？
给定如下命令: bash --shortcuts 我想显示一个快捷方式列表，就像在这个页面上一样: http://www.skorks.com/2009/09/bash-shortcuts-for-m
bash - 如何将带空格的参数从 bash 脚本传递到 bash 脚本？
我有一个脚本可以操作数据、创建参数并将它们发送到第二个脚本。其中一个参数包含一个空格。脚本1.sh: args=() args+=("A") args+=("1 2") args+=("B") .
bash - 从 bash 脚本到无限循环中的 bash 脚本
我的脚本的“只运行一次”版本的一个非常简单的示例: ./myscript.sh var1 "var2 with spaces" var3 #!/bin/bash echo $1 #output: va
bash - bash 中数字的表示和 bash 中十六进制数的 printf
我想了解数字( double )在 bash 中是如何表示的，以及当我在 bash 中以十六进制格式打印数字时会发生什么。根据 IEEE 754 标准，double 应由 64 位表示:52 位(1
bash - bash -c ""中的源 bash 脚本
我试图在 bash -c "..." 命令中获取 bash 脚本，但它不起作用。如果我在 bash -c "..." 之外运行命令，它会起作用。我需要使用 bash -c "..." 因为我想确保
bash - 检测 bash 中是否存在 Bash 补全
如何检测我的 bash shell 中是否加载了 bash 补全包？从 bash-completion 的 2.1 版(包含在 Debian 8 中)开始，除了 BASH_COMPLETION_COM
bash - 如何在 bash 脚本中使用 bash 配置文件中定义的函数？
我的 bash_profile 中有一个投影函数。现在我试图从 bash 脚本中调用这个函数，但是我得到了一个未找到的错误。如何使投影函数对 bash 脚本可见？最佳答案必须导出函数 export
bash - 通过 bash 脚本将参数传递给/bin/bash
我正在编写一个 bash 脚本，它接受许多命令行参数(可能包括空格)并通过登录 shell 将它们全部传递给程序 (/bin/some_program)。从 bash 脚本调用的登录 shell 将取
bash - 在新的 bash 中更改 bash 提示符
当我创建一个新的 bash 进程时，提示符默认为一个非常简单的提示符。我知道我可以编辑 .bashrc 等来更改它，但是有没有办法使用 bash 命令传递提示？谢谢! 最佳答案提示由 PS1、PS
bash - Bash shell 和 Bash 终端之间的区别？
好的，我希望这个问题有一定道理，但是 bash shell 和 bash 终端之间有什么区别？例子。当我第一次打开终端时，会提示我当前的目录和用户名。在终端窗口标题中显示 -bash- ，当我键入 e
bash - SBCL:从 bash 运行并退出回到 bash
我是 SBCL 的新手，我正在尝试从 bash 终端运行存储在文本文件中的 Lisp 脚本。这是我在文件开头写的内容 http://www.sbcl.org/manual/#Running-from
bash - Bash 中的十六进制到十进制
我知道我们可以在 bash 中使用将十六进制转换为十进制 #!/bin/bash echo "Type a hex number" read hexNum echo $(( 16#$hexNum ))
bash - bash 脚本中的自动完成
我正在尝试在 bash 脚本中自动完成文件夹名称。如果我输入完整的文件夹名称，一切正常，但我不知道如何自动完成名称。有什么想法吗？ repo() { cd ~/Desktop/_REPOS/$1 }
bash - 如何将多个命令通过管道传递给 bash？
我想检查远程网站上的一些文件。这里是bash命令生成计算文件md5的命令 [root]# head -n 3 zrcpathAll | awk '{print $3}' | xargs -I {}
bash - 获取给定日期后的下一个星期日 (bash)
是否有任何内置函数可以使用 bash shell 脚本从给定日期获取下周日(下周一、下周二等)？例如，2014 年 9 月 1 日之后的第一个星期日是什么时候？我预计 2014 年 9 月 7 日。
bash - 在循环中重命名匹配模式的文件 - Bash
我一直在尝试根据表格重命名一些特定文件，但没有成功。它要么重命名所有文件，要么给出错误。该目录包含数百个以长条形码命名的文件，我只想重命名包含模式 _1_ 的文件。例子 barcode_1_bar
bash - bash 中有没有办法用变量的内容替换文本文件中的占位符？
bash 中有没有办法用变量的内容替换文本文件中的占位符？例如，我想发送一封电子邮件通知，如下所示: Dear Foo, Alert: blah blah blah blah blah blah
bash - bash 脚本执行中出现的坏字符
我有一个 bash 脚本，它在某些字符串上附加了一个重音字符，导致它失败，我找不到这些字符在哪里或如何进入那里。这是一些示例输出: mv: cannot move â/tmp/myapp.zipâ
bash - bash 可以向终端输入写入命令吗？
这个问题在这里已经有了答案: How do I place stdout on edit line? (1 个回答) Can a bash script prepopulate the prompt

首页

博学

6Ren·AI

商城

bash - 使用 GREP 对数据进行子集化

我尝试过的

更新