gpt4 book ai didi

python - 我需要一个用于 python 中 mp3 文件 url 的 href 属性的正则表达式

转载 作者:行者123 更新时间:2023-11-28 20:54:40 24 4
gpt4 key购买 nike

基于之前的堆栈溢出问题和 cgoldberg 的贡献,我使用 python re 模块想出了这个正则表达式:

import re
urls = re.finditer('http://(.*?).mp3', htmlcode)

变量 urls 是一个可迭代对象,如果有多个 mp3 文件 url,我可以使用循环单独访问每个 mp3 文件:

for url in urls:
mp3fileurl = url.group(0)

然而,这种技术只在某些时候有效。我意识到正则表达式不会像完全成熟的解析器模块那样可靠。但是,有时,对于同一页面,这并不可靠。

对于某些 url 条目,我有时会收到 http 之前的所有内容。

我对正则表达式比较陌生。所以,我只是想知道是否有更可靠的方法来解决这个问题。

提前致谢。stackoverflow 的新手,也期待提供一些答案。

最佳答案

正如其他答案所指出的,使用正则表达式解析 HTML = 坏主意。

考虑到这一点,我将添加我最喜欢的解析器的代码:BeautifulSoup :

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(htmlcode)
links = soup.findAll('a', href=True)
mp3s = [l for l in links if l['href'].endswith('.mp3')]
for song in mp3s:
print link['href']

关于python - 我需要一个用于 python 中 mp3 文件 url 的 href 属性的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/822260/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com