linux - 使用 sed、awk 和 xargs 切片 3TB 日志文件？-6ren

linux - 使用 sed、awk 和 xargs 切片 3TB 日志文件？

转载作者：塔克拉玛干更新时间：2023-11-03 01:53:39

24

4

我需要对几 TB 的日志数据进行切片，并且更喜欢命令行的速度。在处理之前，我会将文件分成多个 block ，但需要删除一些部分。

格式示例如下:

uuJ oPz eeOO    109 66  8
uuJ oPz eeOO    48  0   221
uuJ oPz eeOO    9   674 3
kf iiiTti oP    88  909 19
mxmx lo uUui    2   9   771
mxmx lo uUui    577 765 27878456

前 3 个字母数字字符串之间的间隔是空格。之后的一切都是标签。行以 \n 分隔。

我只想保留每个组中的最后一行。

如果一组中只有 1 行，则应保留它。

这是预期的输出:

uuJ oPz eeOO    9   674 3
kf iiiTti oP    88  909 19
mxmx lo uUui    577 765 27878456

我如何使用 sed、awk、xargs 和 friend 来做到这一点，或者我应该只使用更高级别的东西，比如 Python？

最佳答案

awk -F '\t' '
  NR==1 {key=$1} 
  $1!=key {print line; key=$1} 
  {line=$0}
  END {print line}
' file_in > file_out

关于linux - 使用 sed、awk 和 xargs 切片 3TB 日志文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10585523/

24

4

0

文章推荐： linux - 如何获取带有变量的参数？

文章推荐： linux - 在 bash 脚本和 awk 命令方面需要帮助

文章推荐： c++ - 显式特化已删除的主模板

c++ - 如何理解语法 TB> 以及这段代码如何避免无限递归？
我有一个示例代码如下: #include template class B { public: B() : t1_(*this) {} void Test() { t1_.Test
generics - F#:IEnumerable> 与 list 不兼容？
所以我有以下代码，它给出了类型不匹配编译器错误，但我不知道为什么: [] member this.TheTest() = let tuple = (DateTime.Now, 10)
algorithm - TB 数据中出现频率最高的单词
我遇到了一个问题，我们必须在 1 TB 的文件或字符串中找到最常用的 10 个单词。我能想到的一个解决方案是使用哈希表(单词、计数)和最大堆。但是，如果单词是唯一的，则拟合所有单词可能会导致问题。我
java - "%tB"格式化程序如何工作？
System.out.format("%tB",12); 我应该从中得到一个“十二月”，但是我得到了一个很好的异常(exception) Exception in thread "main" java
backup - 您如何处理 TB 级数据的异地备份？
我有数 TB 的文件和数据库转储，需要异地备份。实现这一目标的最佳方法是什么？我目前正在权衡 rsyinc 到 Amazon EBS 或获取设备(例如梭鱼)。我调用我的一个 friend ，他说
sorting - 真的有人对 TB 级的数据进行排序吗？
我最近采访了一个在亚马逊工作的人，他问我:我将如何使用编程语言对 TB 级的数据进行排序？我是一个 C++ 人，当然，我们谈到了合并排序，其中一种可能的技术是将数据拆分成更小的大小并对每个数据进行排
javascript - 将字节转换为 TB 返回错误值
目前我有一个将字节转换为 TB 的函数。我使用下面的公式进行转换。 const formatBytesToTB = (a, b = 2) => { if (a === 0) { retu
css - 无法将仪表板放入 TB 模板上的容器中
我正在尝试使用 Twitter Bootstrap 构建模板。 Here是活生生的例子。我遇到的问题是我可以将 dashboard div 放在 sidebar 菜单旁边，但我不知道我的错误在哪里？我
algorithm - 如何检测大文件(TB)中的少量变化
我刚发现一个有趣的博客，谈论一些面试问题。其中一个问题是: Given a very large file (multiple TB), detect what 4MB ranges has chan
mysql - 导出具有 TB 级数据的大型数据库
转储大型(TB)数据库的最佳方法是什么？除了 mysqldump 之外还有其他更快/更有效的方法吗？这是为了压缩、解压缩，然后重新导入到另一台服务器上的另一个 mysql 数据库中。最佳答案如果您
database - 计算 TB 数据集中分位数的高效算法
我正在尝试为一个巨大的数据集(TB 级数据)计算分位数(可以通过一些精度保证或误差界限来近似)。我怎样才能有效地计算分位数。要求是 1) Can be computed efficiently (on
c - 如何乘以 TB 大小的数字？
当乘以非常大的数字时，您使用基于 FFT 的乘法(参见 Schönhage–Strassen algorithm)。出于性能原因，我正在缓存旋转因子。问题是对于巨大的数字(千兆字节大小)我需要大小为
qemu - QEMU 是如何知道已执行的 TB 的分支方向的？
我正在尝试了解 QEMU 的区 block 链。我对每个执行的 TB 的分支方向有疑问。假设 TB#1 现在已经执行，并找到 next_tb (TB#2)。然后我们知道方向是 TB#1--->TB#2
Jqplot y轴值为KB/MB/TB/PB
如何获取 jqPlot y 轴值(以 KB/MB/GB/TB 为单位)。我有数据节点记录，例如 -不。一天中读取和写入的字节数，并通过 JqPlot 绘制它。但我希望我的 y 轴应包含带有 KB/MB
hash - 如何计算 1 TB 及以上文件的哈希值？
所以，我有几个大约 1 TB 的系统备份镜像文件，我想快速计算它们每个的哈希值(最好是 SHA-1)。一开始我尝试计算 md5 哈希值，2 小时过去了，哈希值还没有计算出来(对于高达 1TB 的大文
java - 选择处理非常大的文本文件(高达几 TB)的语言
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
parallel-processing - 如何及时处理 TB 级数据
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 8年前关闭。 Improve this questi
java - SWING 中哪个数据存储可以处理 TB 级的音频调用
哪种数据库最适合以下场景: 我创建了一个 Java 应用程序，它将音频调用存储到本地文件系统。为了播放音频通话，该应用程序从数据库 (MySQL) 检索元数据，该数据库有一列包含本地 HD 上通话的位
php - Drupal TB mega 菜单太慢了
我正在使用 Drupal 和 TB mega 菜单开发一个网站作为我的主菜单，当我使用 Devel 检查执行时间时，我发现 TB mega 菜单在以下查询中花费了大约 23978.991 毫秒: tb
c - 如何在服务器中支持 1 TB 的内存？
我的 C 语言 (linux) 应用程序至少需要 1 TB 的内存。8 TB 将是最好的。我怎样才能在服务器中支持这样的内存容量？一种方法是构建我自己的 PCI 卡并放入 128 GB DDR4 模块

首页

博学

6Ren·AI

商城

linux - 使用 sed、awk 和 xargs 切片 3TB 日志文件？