gpt4 book ai didi

python - 网络抓取 imd 网站的一些问题

转载 作者:行者123 更新时间:2023-11-28 09:20:18 26 4
gpt4 key购买 nike

所以我在抓取这个印度天气网站

http://202.54.31.7/citywx/localwx.php

因此,在左侧 Pane 中,您可以看到所有印度邦,如果将鼠标悬停在它们上方,您可以选择城市/地区。所以我从左 Pane 中选择了 Delhi->safdarjung 并将此页面保存在本地:-

from BeautifulSoup import BeautifulSoup
import urllib, urllib2

imd_ind = urllib2.urlopen('http://202.54.31.7/citywx/localwx.php')
delhi_info = imd_ind.read()
open('delhi_info.html', 'w').write(delhi_info)
soup = BeautifulSoup(open('delhi_info.html'))
soup.prettify

只打印这么多:-

<bound method BeautifulSoup.prettify of <html><head><title>Local Weather Forecast</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
<meta content="MSHTML 5.00.2920.0" name="GENERATOR" /></head>
<frameset border="0" cols="330,611*" frameborder="NO" framespacing="0" rows="*"><frame name="menuFrame" noresize="noResize" src="menu.php" /><frame name="mainframe" src="http://202.54.31.7/citywx/city_weather1.php?id=42182" /></frameset></html>
>

然而,如果我在 chrome 中检查本地保存的页面“delhi_info.html”,我可以看到大量信息日期、温度、阴天等(即很多,'s),但为什么我不能通过任何方式看到它们BeautifulSoup 方法。请帮忙

最佳答案

您在 HTML 中有框架元素。您保存的 HTML 文件中有此代码:

src="http://202.54.31.7/citywx/city_weather1.php?id=42182"

BeautifulSoup 不能抓取这个帧,所以你需要提取这个 URL,打开它然后抓取数据。

关于python - 网络抓取 imd 网站的一些问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26119806/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com