python - 如何用linux工具彻底清除重复的行？-6ren

python - 如何用linux工具彻底清除重复的行？

转载作者：太空狗更新时间：2023-10-30 01:47:59

本题不等于How to print only the unique lines in BASH?因为那个建议删除重复行的所有副本，而这个只是关于删除它们的重复项，即将 1, 2, 3, 3 更改为 1, 2 , 3 而不仅仅是 1, 2。

这个问题真的很难写，因为我看不出有什么可以赋予它意义的。但这个例子显然是直截了当的。如果我有这样的文件:

解析文件删除重复行后，变成这样:

1
3
4

我知道 python 或其中的一些，这是我编写的用于执行它的 python 脚本。创建一个名为 clean_duplicates.py 的文件并将其运行为:

import sys

#
# To run it use:
# python clean_duplicates.py < input.txt > clean.txt
#
def main():

    lines = sys.stdin.readlines()

    # print( lines )
    clean_duplicates( lines )

#
# It does only removes adjacent duplicated lines, so your need to sort them
# with sensitive case before run it.
# 
def clean_duplicates( lines ):

    lastLine    = lines[ 0 ]
    nextLine    = None
    currentLine = None
    linesCount  = len( lines )

    # If it is a one lined file, to print it and stop the algorithm
    if linesCount == 1:

        sys.stdout.write( lines[ linesCount - 1 ] )
        sys.exit()

    # To print the first line
    if linesCount > 1 and lines[ 0 ] != lines[ 1 ]:

        sys.stdout.write( lines[ 0 ] )

    # To print the middle lines, range( 0, 2 ) create the list [0, 1]
    for index in range( 1, linesCount - 1 ):

        currentLine = lines[ index ]
        nextLine    = lines[ index + 1 ]

        if currentLine == lastLine:

            continue

        lastLine = lines[ index ]

        if currentLine == nextLine:

            continue

        sys.stdout.write( currentLine )

    # To print the last line
    if linesCount > 2 and lines[ linesCount - 2 ] != lines[ linesCount - 1 ]:

        sys.stdout.write( lines[ linesCount - 1 ] )

if __name__ == "__main__":

    main()

虽然，在搜索重复行时，删除似乎更易于使用 grep、sort、sed、uniq 等工具:

最佳答案

您可以将 uniq 与 -u/--unique 选项一起使用。根据 uniq man page :

-u / --unique

Don't output lines that are repeated in the input.
Print only lines that are unique in the INPUT.

例如:

cat /tmp/uniques.txt | uniq -u

或者，如 UUOC: Useless use of cat 中所述，更好的方法是这样做:

uniq -u /tmp/uniques.txt

这两个命令都会返回值:

1
3
4

其中 /tmp/uniques.txt 包含问题中提到的数字，即

注意:uniq 要求文件内容排序。如 doc 中所述:

By default, uniq prints the unique lines in a sorted file, it discards all but one of identical successive input lines. so that the OUTPUT contains unique lines.

如果文件未排序，您需要 sort内容第一然后对排序后的内容使用 uniq:

sort /tmp/uniques.txt | uniq -u

关于python - 如何用linux工具彻底清除重复的行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40916782/

文章推荐： python - 类型错误 : unorderable types: str() < int()

文章推荐： database - 没有中间表的多对多 - 这可能吗？

文章推荐： python - 如何从范围中获取随机十进制数？

html - 清除 float div(清除 :both; not working )
我有一个网站，我正在通过学校参加比赛，但我在清除 float 元素方面遇到了问题。该网站托管在 http://www.serbinprinting.com/corey/development/
jquery - 如何使用 JQuery 清除“清除”按钮上的文本
我有一个清除按钮，需要使用 JQuery 函数清除该按钮单击时的 TextBox 值(输入的)。最佳答案您只需将单击事件附加到按钮即可将输入元素的值设置为空。 $("#clearButton").
swift - 清除/清除 CloudKit 容器的所有用户 iCloud 记录
我们已经创建了一个保存到 CoreData 然后同步到 CloudKit 的 iOS 应用程序。在测试中，我们还没有找到一种方法来清除应用程序 iCloud 容器中的数据(用于用户私有(private
html - hr 清除 vs div 清除。哪个更好？
这是一个普遍的问题，也是我突然想到并且似乎有道理的问题。我看到很多人使用清除div 并且知道这有时不受欢迎，因为它是额外的标记。我最近开始使用因为它接缝代表了它的实际用途。当然都引用了:.clea
WPF ComboBox 清除
我有两个单选按钮。如果我检查第一个单选按钮下面的数据将填充在组合框中。之后我将检查另一个单选按钮，我想清除组合框值。 EmployeeTypes _ET = new EmployeeTypes(
javascript - 间隔没有被clearInterval()清除
我一直在玩 Canvas ，我正在尝试制作一个可以移动和跳跃的正方形，移动部分已经完成，但是跳跃部分有一个问题:每次跳跃时它都会跳得更快 here's a jsfiddle 这是代码: ///////
dart - 清除/清空tbody元素的所有内容？
我该如何在 Dart 上做到这一点？抓取tbody元素后，我想在其上调用empty()，但这似乎不存在: var el = query('#search_results_tbody'); el.em
Java JPanel 清除
我需要创建一个二维模拟，但是在设置新的“框架”时，旧的“框架”不会被清除。我希望一些圆圈在竞技场中移动，并且每个循环都应删除旧圆圈并生成新圆圈。一切正常，但旧的没有被清除并且仍然可见，这就是我需要改
Vim 状态行未更改/清除
无论我使用set statusline将状态行更改为什么，我的状态行都不会改变。看起来像 ".vimrc" 39L, 578C
wpf - 清除 ObservableCollection
在 WPF 应用程序中，我有一个 ListView 绑定(bind)到我的 ViewModel 上的一个 ObservableCollection。在应用程序运行期间，我需要删除并重新加载集合中的所
清除 C 中的输入缓冲区
我有一个大型程序，一个带有图形的文本扭曲游戏。在我的代码中的某处，我使用 kbhit() 我执行此代码来清除我的输入缓冲区: while ((c = getchar()) != '\n' && c !
javascript - 清除#而不重新加载页面
我正在将所有网站的页面加载到主索引页面中，并通过将 href 分成段并在主域名后使用 .hash 函数添加段来更新 URL 显示，如下所示: $('a').click(function(event)
c# - 清除 __eventArgument
我有一个带有的表单和 2 控件来保存和重置表单。我正在触发使用 javascript __doPostBack()函数并在其中传递一个值 __EVENTARGUMENT如果面板应该重置。我的代
ios - 清除 UIViewController
我目前有一堆 UIViewController，每个都是在前一个之上呈现的模式 ViewController。我的问题是我不需要一堆 UIViewController，我只需要最后一个。因此，当出现新
python - 清除@property方法python的缓存
我在一个类中有一些属性方法，我想在某个时候清除这个属性的缓存。示例: class Test(): def __init__(self): pass @property
css - 清除 : both: 时遇到问题
在此Test Link我试图将标题和主站点导航安装到博客脚本的顶部。我清除:两者；在主要网站脚本上工作，但现在把所有东西都扔到了一边。尝试了无数次 fixex 都没有成功!提前感谢 Ant 指点解决
CSS 清除 :both not working
我似乎无法正确清除布局。看this 我无法阻止左栏中的元素向下推右栏中的元素。谁能帮忙？ Screenshot with some pointy arrows (死链接) 最佳答案问题标记/样式似
css - 清除 元素后的内容
我希望能够在某个类 (sprite-empos) 之后清除 '' 中的内容，想知道是否有不添加任何新类或不使用 js 的方法(我在下面尝试过不工作)？为了明确它是“985”，我想在某个视口(view

c++ - 清除 ptr_array
我想清除ptr_array boost::ptr_array a; ... a.clear(); // missing 如何清理 ptr 容器？最佳答案它应该表现得像一个数组，您不能在 C++

c++ - multimap 清除
这是我使用多 map 制作的一个简单的事件系统；当我使用 CEvents::Add(..) 方法时，它应该插入并进入多重映射。问题是，当我触发这些事件时， multimap 似乎是空的。我确定我没有调

太空狗

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

c - 在位数组中找到第一个零

linux - Unix 显示有关匹配两种模式之一的文件的信息

正则表达式替换多个文件

linux - 隐藏来自 xtrace 的命令

滴滴打车优惠券免费领取

全站热门文章

跟着8.6kStar的开源数据库，搞RAG！

manim边学边做--同伦变换

深入理解Servlet：从基础概念到高级特性与实战应用

VisualStudio-API调试与测试工具之HTTP文件

经典区间线段树详解：从原理到实践

DevNowxNotion

.NET周刊【12月第3期2024-12-15】

JVM简介—3.JVM的执行子系统

leetcode05回文字符串

Promise/A+规范-中文版本

首页

博学

6Ren·AI

商城

python - 如何用linux工具彻底清除重复的行？