gpt4 book ai didi

python - 使用 BeautifulSoup 和 Python 解析文本时遇到问题

转载 作者:行者123 更新时间:2023-12-01 04:48:27 25 4
gpt4 key购买 nike

我正在尝试检索regulations.gov 页面上的评论部分。一个例子是“对自营交易的限制......以自由市场驱动的估值”段落。上http://www.regulations.gov/#!documentDetail;D=OCC-2011-0014-0032

我正在使用 BeautifulSoup 和 Python 并具有以下代码:

from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get(http://www.regulations.gov/#!documentDetail;D=OCC-2011-0014-0032)
source = driver.page_source.encode('ascii', 'replace')
soup = BeautifulSoup(source)
print soup
commentHolder = soup.find("div", {"class":"GGAAYMKDDNE"})
print commentHolder

当我执行“print soup”时,我得到一个输出(尽管很困惑),但是当我执行“print commentHolder”时,我得到“None”作为输出。我不太确定为什么会发生这种情况,希望得到任何帮助。谢谢。

注意:我使用 Selenium webdriver 来尝试绕过 Javascript - 这是正确的方法吗?

最佳答案

你需要让PhantomJS explicitly wait在读取 page_source 之前让元素出现。为我工作:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.PhantomJS()
driver.get("http://www.regulations.gov/#!documentDetail;D=OCC-2011-0014-0032")

wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.GGAAYMKDGNE")))

关于python - 使用 BeautifulSoup 和 Python 解析文本时遇到问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28911758/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com