gpt4 book ai didi

python - 如何从列表中删除具有公共(public)部分的字符串

转载 作者:太空宇宙 更新时间:2023-11-03 21:45:12 24 4
gpt4 key购买 nike

我需要从 python 中具有公共(public)部分的列表中删除重复项。我的 list 是这样的:

- Addition  domainname1.com 80.80.80.80
+ Addition domainname1.com 80.80.80.81
- Bitsquatting domainname2.com 104.160.171.87
+ Bitsquatting domainname2.com 104.160.172.85
- Homoglyph domainname3.com 206.188.193.4
- Insertion domainname4.com 206.188.200.6
- Insertion domainname5.com 206.188.200.7
+ Insertion domainname5.com 206.188.200.8

在此列表中,我只想保留具有唯一域名的字符串(而不是具有公共(public)域名和不同 IP 的字符串):

- Homoglyph domainname3.com 206.188.193.4
- Insertion domainname4.com 206.188.200.6

我尝试使用split()来获取域名列表:

domainname1.com
domainname1.com
domainname2.com
domainname2.com
domainname3.com
domainname4.com
domainname5.com
domainname5.com

并删除通用域名,但我不得不从之前的列表中删除相应的字符串。

for line in change:
name = line.split()
domain_name = name[2]

我获取域名列表的方法(change 是我的初始列表)。

谢谢

最佳答案

获取唯一的主机名

您可以迭代各行,每次都将域名添加到集合中,例如:

my_set = {line.split()[2] for line in change}
the_domains = list(my_set)

假设所有行都遵循域是一个“单词”的格式,并且该域之前有两个“单词”,这样就可以解决问题。

上述内容不能保证订单得到维持。如果这是一个要求,您可以使用唯一性过滤器,例如:

def uniq(iterable):
already = set()
for x in iterable:
if x not in already:
yield x
already.add(x)

然后我们可以这样处理:

the_domains = list(uniq(line.split()[2] for line in change))

获取具有唯一主机名的行

我们可以稍微概括一下 uniq 函数以允许关键参数,例如:

def uniq(iterable, key=lambda x: x):
already = set()
for x in iterable:
fx = key(x)
if fx not in already:
yield x
already.add(fx)

然后我们可以在主机名的行中添加:

the_domains = list(uniq(change, key=lambda line: line.split()[2]))

删除主机名出现两次或多次的行

我们还可以使用计数器删除主机名出现两次或多次的所有行:

from collections import Counter

def non_dup(iterable, key=lambda x: x):
iterable = list(iterable)
cntr = Counter(map(key, iterable))
return filter(lambda x: cntr[key(x)] < 2, iterable)

然后我们过滤:

the_domains = list(non_dup(change, key=lambda line: line.split()[2]))

关于python - 如何从列表中删除具有公共(public)部分的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52553597/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com