gpt4 book ai didi

python - 从列表中的每个项目中删除字符并对相同项目进行计数

转载 作者:太空宇宙 更新时间:2023-11-03 14:27:20 25 4
gpt4 key购买 nike

我有一个文本文件,每一行都有一个 HTTP 请求。首先,我从文本文件创建了一个列表,现在尝试计算域发送请求的次数。每行都有完整的 URL,因此我需要删除“.com”后面的任何内容,以仅保留域并计算该域发出的请求总数。例如,根据下面的列表,输出将是

  • 'https://news.com': 4
  • 'https://recipes.com': 4
  • “https://books.com”:3

    my_list = ['https:/news.com/main', 'https:/recipes.com/main', 
    'https:/news.com/summary', 'https:/recipes.com/favorites',
    'https:/news.com/today', 'https:/recipes.com/book',
    'https:/news.com/register', 'https:/recipes.com/',
    'https:/books.com/main', 'https:/books.com/favorites',
    'https:/books.com/sale']

最佳答案

您可以使用 reCounter 来完成此操作 -

  1. 使用 re.match 提取域名
  2. 将表达式传递给 Counter 构造函数
from collections import Counter
import re

c = Counter(re.match('.*com', i).group(0) for i in my_list)

print(c)
Counter({'https:/books.com': 3, 'https:/news.com': 4, 'https:/recipes.com': 4})

请注意,(生成器)理解中的 re.match 无法处理错误(如果您的列表包含无效 URL,则可能会发生这种情况)。在这种情况下,您可能会考虑使用循环 -

r = []
for i in my_list:
try:
r.append(re.match('.*com', i).group(0))
except AttributeError:
pass

c = Counter(r)

关于python - 从列表中的每个项目中删除字符并对相同项目进行计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47543173/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com