gpt4 book ai didi

python - 确定网页中的 HTML 元素以进行网页抓取

转载 作者:太空宇宙 更新时间:2023-11-03 14:36:20 25 4
gpt4 key购买 nike

这是 HTML 代码:

 <span class="milestone">Announcement:</span>
"&nbsp; 2 April 2000 "
<br>
<span class="milestone">Ground Breaking:</span>
"&nbsp; 23 February 2002
<br>
etc.

在网页上,我可以看到:

公告:2000 年 4 月 2 日

破土动工:2002 年 2 月 23 日

但是我不知道如何使用 Python 的 BeautifulSoup 来获取日期。使用 Chrome 的“检查元素”时,我可以看到日期信息,但我无法找出获取它所需的 HTML 元素。   是否存在细微差别,导致抓取变得更加困难?我不确定接下来要探索什么选项。

最佳答案

使用BeautifulSoup,这相对简单 - 其想法是通过类和文本定位“里程碑”元素,然后使用 .next_sibling 到达下一个同级元素。 :

from bs4 import BeautifulSoup


data = """
<div>
<span class="milestone">Announcement:</span>
"&nbsp; 2 April 2000 "
<br>
<span class="milestone">Ground Breaking:</span>
"&nbsp; 23 February 2002 "
<br>
</div>"""

soup = BeautifulSoup(data, "html.parser")

print(soup.find(class_="milestone", text="Announcement:").next_sibling.strip())
print(soup.find(class_="milestone", text="Ground Breaking:").next_sibling.strip())

打印:

"  2 April 2000 "
"  23 February 2002 "

关于python - 确定网页中的 HTML 元素以进行网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46924583/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com