gpt4 book ai didi

python - 抓取中间有
的表格(不出现)

转载 作者:行者123 更新时间:2023-12-01 09:24:50 24 4
gpt4 key购买 nike

我无法使用 BeautifulSoup 从 html 中获取表格。我尝试使用xpath,但我不知道它是如何工作的...我想找到这首歌的歌词,但它没有出现在“汤”中。为什么?用BeautifulSoup可以得到吗? xpath 是最好的选择吗?

示例来自https://www.musica.com/letras.asp?letra=113 。简化我的代码:

from bs4 import BeautifulSoup
import requests
import re
import urllib

url = "https://www.musica.com/letras.asp?letra=113"
soup = BeautifulSoup(requests.get(url).text, 'html5lib')
print(soup)

我认为问题在于
,一种突破。

最佳答案

尝试从该页面获取歌词:

from bs4 import BeautifulSoup
import requests

url = "https://www.musica.com/letras.asp?letra=113"

soup = BeautifulSoup(requests.get(url).text, 'html5lib')
for items in soup.select_one("table[style='width:100%;margin:0px auto']").select("tr")[:-3]: #kicking out the last three blank rows
data = '\n'.join([item.get_text() for item in items.select("td p")])
print(data)

输出如下:

You can dance, you can jive 
Having the time of your life
See that girl, watch that scene
Dig in the Dancing Queen

关于python - 抓取中间有 <br> 的表格(不出现),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50515260/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com