gpt4 book ai didi

python - 为什么 BeautifulSoup4 缺少第一个文件 URL?

转载 作者:太空宇宙 更新时间:2023-11-04 09:34:58 25 4
gpt4 key购买 nike

我正在尝试将本网站上的文件编目作为个人练习。当我运行下面的代码时,我不知道为什么我没有得到这个网站上的第一个文件 url。感谢您的帮助。

import requests
from bs4 import BeautifulSoup
import regex

url = 'https://www.liberliber.it/online/autori/autori-p/niccolo-paganini/24-capricci-per-violino-solo-op-1/'
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')

files = soup.find_all(href=regex.compile("\.mp3$"))

for h in files:
a = h.findNext('a')
#print(a.string)
urls.append(a.attrs['href'])
tags.append(a.string)

文件最终偏移了一个 mp3 文件。为什么我没有获取第一个文件并在末尾添加另一个文件?

最佳答案

我认为您不需要 findNext,因为您在 files 中拥有所有 a 标记。所以也许你只是想要

for h in files:
urls.append(h.attrs['href'])
tags.append(h.string)

关于python - 为什么 BeautifulSoup4 缺少第一个文件 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54099554/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com