gpt4 book ai didi

python - 使用正则表达式从 URL 中提取子字符串

转载 作者:行者123 更新时间:2023-11-30 23:29:01 24 4
gpt4 key购买 nike

这里是正则表达式新手。我有一堆 URL,我需要从中提取一些我正在使用正则表达式的子字符串。

例如:如果我的网址是 https://chrome.google.com/webstore/detail/vt-hokie-stone-theme/enmbbbhbkojhbkbolmfgbmlcgpkjjlja?hl=en-US,我需要提取1. vt-hokie-stone-theme 部分和 2. enmbbbhbkojhbkbolmfgbmlcgpkjjlja 部分从此 url 转换为两个单独的变量。

我的网址的初始部分始终保持不变,因此我构建了以下正则表达式detail\/([a-z0-9\-]+)\/([a-z]+)我正在尝试处理 http://www.pythonregex.com/

我看到 regex.findall(string) 给了我我想要的东西,但我有以下问题:

  1. 我希望它们位于两个单独的变量中,而不是将它们作为单个变量中的列表格式。我该怎么做?

  2. 此外,在检查 pythonregex 时,regex.findall(string) 命令给出的输出为 [(u'vt-hokie-stone-theme', u' enmbbbhbkojhbkbolmfgbmlcgpkjjlja')]。我知道前面的 u 表示 unicode,但我不希望它出现在我的输出中。如何删除它?

最佳答案

  1. 您可以使用元组/列表赋值语法来实现此目的:

    try:
    var1, var2 = re.search(r"detail\/([a-z0-9\-]+)\/([a-z]+)", my_url).groups()
    except AttributeError:
    var1 = var2 = ""
  2. unicode 字符串仅在网站的答案中可见,在原始 python 中,返回值将是普通字符串。所以,你不用担心这个问题。

关于python - 使用正则表达式从 URL 中提取子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21360541/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com