gpt4 book ai didi

python - 如何从 imdb 业务页面抓取数据?

转载 作者:行者123 更新时间:2023-11-30 23:16:36 25 4
gpt4 key购买 nike

我正在制作一个项目,需要来自 imdb 业务页面的数据。我正在使用 python。数据存储在两个标签之间,如下所示:

预算

220,000,000 美元(估计)

我想要数字金额,但到目前为止还没有成功。有什么建议。

最佳答案

看看Beautiful Soup ,它是一个有用的抓取库。如果您查看源代码,您会发现“Budget”位于 h4 元素内,并且该值位于 DOM 中的下一个位置。这可能不是最好的例子,但它适用于您的情况:

import urllib
from bs4 import BeautifulSoup


page = urllib.urlopen('http://www.imdb.com/title/tt0118715/?ref_=fn_al_nm_1a')
soup = BeautifulSoup(page.read())
for h4 in soup.find_all('h4'):
if "Budget:" in h4:
print h4.next_sibling.strip()

# $15,000,000

关于python - 如何从 imdb 业务页面抓取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27665509/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com