Bash 脚本 : count unique lines in file

转载作者：行者123 更新时间：2023-11-29 08:38:40

29

4

情况:

我有一个大文件(数百万行)，其中包含来自数小时网络捕获的 IP 地址和端口，每行一个 ip/端口。行的格式如下:

ip.ad.dre.ss[:port]

期望的结果:

我在记录时收到的每个数据包都有一个条目，因此有很多重复地址。我希望能够通过某种 shell 脚本运行它，这将能够将它减少为格式行

ip.ad.dre.ss[:port] count

其中 count 是该特定地址(和端口)出现的次数。无需做任何特殊工作，将不同的端口视为不同的地址。

到目前为止，我正在使用此命令从日志文件中抓取所有 IP 地址:

grep -o -E [0-9]+\.[0-9]+\.[0-9]+\.[0-9]+(:[0-9]+)? ip_traffic-1.log > ips.txt

据此，我可以使用一个相当简单的正则表达式来抓取由我的地址发送的所有 IP 地址(我不关心)

然后我可以使用以下内容来提取唯一条目:

sort -u ips.txt > intermediate.txt

我不知道如何通过排序以某种方式聚合行数。

最佳答案

您可以使用 uniq 命令获取已排序重复行的计数:

sort ips.txt | uniq -c

要在顶部获得最频繁的结果(感谢 Peter Jaric):

sort ips.txt | uniq -c | sort -bgr

关于Bash 脚本 : count unique lines in file，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15984414/

29

4

0

文章推荐： bash - 不带标点符号显示当前日期和时间

文章推荐： macos - 如何将所有文件重命名为小写？

文章推荐： r - 在命令行(终端)上使用 R 脚本的最佳方式是什么？

Java 8 流 : How to read lines between two lines specified by line content
当前问题陈述的输入是 - 输入.txt #START_OF_TEST_CASES #DATA key1:VA1 key2:VA2 key3:VA3 key4:VA4 key5:VA5 #DEND #E
php - 注意 : . .. Unknown on line 0 - How to find correct line, it's NOT "line 0"
编辑:添加了 PDO 调用。这是实际的错误: Notice: Object of class PDOStatement could not be converted to int in Unknow
git - 有没有办法让 git show lines added, lines changed and lines removed？
“git diff --stat”和“git log --stat”显示如下输出: $ git diff -C --stat HEAD c9af3e6136e8aec1f79368c2a6164e56
java - 将 Files.lines 与 .map(line -> line.split ("multiple delimiters")) 一起使用
我有一个具有以下格式的输入文件:安大略省:布兰普顿:北纬 43° 41':西经 79° 45'安大略省:多伦多:北纬 43° 39':西经 79° 23'魁北克省:蒙特利尔:北纬 45° 30':西经
python - 为什么 line != "\n"或 line != "\r\n"或 line ! ="\r"无法过滤空行？
空白行仅包含\n或\r\n或\r。 tempfile = open(file,"r") for id,line in enumerate(tempfile): if(line != "\n"
lines - 如何去除 BABYLON Lines 上的光效
我尝试使用 BABYLON.js 开发棋盘游戏我有一个板子和一个 ArcRotateCamera。我的灯是 HemisphericLight 当我在板上画线时，我希望这些线具有相同的外观。现在，当我
lines - 如何去除 BABYLON Lines 上的光效
我尝试使用 BABYLON.js 开发棋盘游戏我有一个板子和一个 ArcRotateCamera。我的灯是 HemisphericLight 当我在板上画线时，我希望这些线具有相同的外观。现在，当我
linux - "$line"和 "^$line"有什么区别
有一个while read循环: while read line; do grep "^$line" file1 done < target 我应该使用 "^$line" 来获得正确答案。我想
python : How to fill an array line by line?
我有一个我无法解决的 numpy 问题。我有填充 0 和 1 的 3D 数组 (x,y,z)。例如，z 轴上的一个切片: array([[1, 0, 1, 0, 1, 1, 0, 0],
javascript - 如何迭代 "line-by-line"npm 中的所有行？
作为临时方法，我使用 .txt 文件来存储程序的某些变量。写入与 fs.appendFile 完美配合，但考虑到它的大小，使用 fs.readFile 读取不合适 - 我想得到某一行来自文件，以及
rstudio - R-调试: line by line through a loop
我试图找到一种通过R studio进行调试的方法，但是我发现的所有解决方案都无法真正起作用。 1.)CTRL + enter:有效，但不会通过循环的每次迭代，而只能执行一次。 2.)添加“browse
java - 安卓开发: Line Spacing With Line Numbering
在我的应用程序中，我的 EditText 左侧有行号 - 到目前为止一切都很好，行号与 EditText 的行完全对齐。问题是，如果用户更改 EditText 的文本大小，则行号无法正确对齐。所以我
command-line - Vim : from command line, 转到文件末尾并开始编辑？
通过使用 + 的参数调用它，我可以使 vim 将光标定位在文件的最后一行。 : vi + myfile # "+" = go to last line of file 我怎样才能做到
克洛尤尔 : Read an edn file line by line
我已经在文件中写入了这样的数据(某种) {:a 25 :b 28} {:a 2 :b 50} ... 我想要这些 map 的惰性序列。大约有 4000 万行。我也可以写 10000 的 block
javascript - 多行文本区域值 : line feed not present in all lines
我在文本区域中发现了一个奇怪的错误(？)... 比如说，有一个使用多行文本(用户粘贴的文本或预设文本无关紧要，两者都经过测试)。我想从中获取文本并替换 \n与其他东西......结果是，.re
python - Reportlab new line in a long line
我需要一个新行，这样我就可以在 PFD 中看到一个格式，我尝试添加一个页面宽度但它没有用，我用另一个东西/n 也没有用。这是我的代码。我可以手动添加格式，因为我需要显示从数据库中获取的信息，并且我在一
Java地理工具: Snap to line identifiying line that was snapped to
我正在尝试编写一个 Java 程序，它将大量 GPS 坐标捕捉到线形文件(道路网络)，并且不仅返回新坐标，还返回捕捉到的线段的唯一标识符。该标识符是否是 FID、其他语言中使用的“索引”(即，其中 1
javascript - 填充二维数组 "line by line"JavaScript/NodeJS
你好，我正在努力处理 JavaScript/NodeJS 中的数组。基本上，这是我的代码: let arr = new Array(); arr = { "Username" : var1,
python - matplotlib 2d line line,=plot逗号意思
我正在学习 matplotlib 的基本教程，我正在处理的示例代码是: import numpy as np import matplotlib.pylab as plt x=[1,2,3,4] y=
c# - 文本文件 : Reading line by line C#
所以，假设我有一个包含 20 行的文本文件，每行都有不同的文本。我希望能够有一个包含第一行的字符串，但是当我执行 NextLine(); 时我希望它成为下一行。我试过了，但它似乎不起作用: strin

首页

博学

6Ren·AI

商城

Bash 脚本 : count unique lines in file

情况:

期望的结果: