gpt4 book ai didi

python - 如何从该网页中抓取文本?

转载 作者:行者123 更新时间:2023-12-01 00:42:03 25 4
gpt4 key购买 nike

我正在尝试抓取此 HTML 标题

<h2 id="p89" data-pid="89"><span id="page77" class="pageNum" data-no="77" data-before-text="77"></span>Tuesday, July&nbsp;30</h2>

来自此网站:https://wol.jw.org/en/wol/h/r1/lp-e

我的代码:

from bs4 import BeautifulSoup
import requests

url = requests.get('https://wol.jw.org/en/wol/h/r1/lp-e').text

soup = BeautifulSoup(url, 'lxml')

textodiario = soup.find('header')

dia = textodiario.h2.text
print(dia)

它应该返回今天的日期,但它返回过去的一天:7 月 24 日星期三

最佳答案

目前我没有电脑可供测试,请仔细检查是否存在可能的错误。

您需要chromedriver for your platform too ,将其放在脚本的同一文件夹中。

我的想法是使用 selenium 获取 HTML,然后解析它:

import time
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

url = "https://wol.jw.org/en/wol/h/r1/lp-e"
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=options)
driver.get(url)
time.sleep(3)
page = driver.page_source
driver.quit()
soup = BeautifulSoup(page, 'html.parser')
textodiario = soup.find('header')
dia = textodiario.h2.text
print(dia)

关于python - 如何从该网页中抓取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57271349/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com