gpt4 book ai didi

python - 为什么 requests 和 urllib2 缺少网页中的一些文本?

转载 作者:行者123 更新时间:2023-11-28 01:18:12 25 4
gpt4 key购买 nike

以下代码提取网页信息

from BeautifulSoup import BeautifulSoup
import requests
import urllib2

url = 'http://www.surfline.com/surf-report/rincon-southern-california_4197/'

source_code = requests.get(url)
plain_text = source_code.text
print plain_text

site = urllib2.urlopen(url).read()
print site

两个库的结果包括:

<div id="current-surf-range" style="font-size:21px;font-weight:bold;padding-top:7px; padding-bottom: 7px;"></div>

不幸的是,这与实际网页不同:

<div id="current-surf-range" style="font-size:21px;font-weight:bold;padding-top:7px; padding-bottom: 7px;">4-5ft</div>

4-5ft 不存在,因此 BeautifulSoup 无法提取。

最佳答案

  1. 安装 selenium,完整说明在 docs 中.

pip3 install selenium

  1. 下载驱动程序。我更喜欢使用 chrome driver , 但如果你安装了 firefox,下面的代码应该可以正常工作。
from selenium import webdriver
url = 'http://www.surfline.com/surf-report/rincon-southern-california_4197/'
web = webdriver.Firefox()
# web = webdriver.Remote('http://localhost:9515', desired_capabilities=DesiredCapabilities.CHROME)

source_code = web.get(url)
# Sometimes it take time to load the page that's why: from time import sleep; sleep(2)
plain_text = source_code.page_source

关于python - 为什么 requests 和 urllib2 缺少网页中的一些文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34884534/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com