python - 如何通过 Python Selenium BeautifulSoup 从网站中提取文本形式的证券价格-6ren

python - 如何通过 Python Selenium BeautifulSoup 从网站中提取文本形式的证券价格

转载作者：太空宇宙更新时间：2023-11-03 10:49:08

25

4

我试图简单地获取 https://investor.vanguard.com/529-plan/profile/4514 中显示的证券价格.我运行这段代码:

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Firefox(executable_path=r'C:\Program_Files_EllieTheGoodDog\Geckodriver\geckodriver.exe')
driver.get('https://investor.vanguard.com/529-plan/profile/4514')
html = driver.page_source
soup = BeautifulSoup(html, 'lxml')

当我在 selenium 打开的 Firefox 中“检查元素”价格时，我清楚地看到:

<span data-ng-if="!data.isLayer" data-ng-bind-html="data.value" data-ng-class="{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}" class="ng-scope ng-binding arrange">$42.91</span >

但这些数据不在我的考虑范围之内。如果我打印我的汤，html 确实与网站上显示的完全不同。我试过了，但完全失败了:

myspan = soup.find_all('span', attrs={'data-ng-if': '!data.isLayer', 'data-ng-bind-html': 'data.value', 'data-ng-class': '{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}', 'class': 'ng-scope ng-binding arrange'})

我完全被难住了。如果有人能指出我正确的方向，我将不胜感激。我觉得我完全错过了一些东西，可能有几件事......

最佳答案

您使用 data_* 属性和值来选择范围的方式没有任何问题。事实上，这是 documentation 中提到的正确方法。 .有4个span标签匹配所有的属性。 find_all 将返回所有这些标签。第二个对应价格。

您错过的是跨度需要一些时间才能加载，并且在此之前返回页面源。你可以explicitly wait对于该跨度，然后获取页面源。这里我使用 Xpath 来等待元素。您可以通过转到 检查工具 -> 右键单击元素 -> 复制 -> 复制 xpath

来获取 xpath

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
driver = webdriver.Firefox()
driver.get('https://investor.vanguard.com/529-plan/profile/4514')
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH ,'/html/body/div[1]/div[3]/div[3]/div[1]/div/div[1]/div/div/div/div[2]/div/div[3]/div[1]/div/div/table/tbody/tr[1]/td[2]/div/span[1]')))
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
myspan = soup.find_all('span', attrs={'data-ng-if': '!data.isLayer', 'data-ng-bind-html': 'data.value', 'data-ng-class': '{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}', 'class': 'ng-scope ng-binding arrange'})
print(myspan)
print(myspan[1].text)

输出

[<span class="ng-scope ng-binding arrange" data-ng-bind-html="data.value" data-ng-class="{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}" data-ng-if="!data.isLayer">Unit price as of 02/15/2019</span>, <span class="ng-scope ng-binding arrange" data-ng-bind-html="data.value" data-ng-class="{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}" data-ng-if="!data.isLayer">$42.91</span>, <span class="ng-scope ng-binding arrange" data-ng-bind-html="data.value" data-ng-class="{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}" data-ng-if="!data.isLayer">Change</span>, <span class="ng-scope ng-binding arrange" data-ng-bind-html="data.value" data-ng-class="{sceIsLayer : isETF, arrange : isMutualFund, arrangeSec : isETF}" data-ng-if="!data.isLayer"><span class="number-positive">$0.47</span> <span class="number-positive">1.11%</span></span>]
$42.91

关于python - 如何通过 Python Selenium BeautifulSoup 从网站中提取文本形式的证券价格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54720340/

25

4

0

文章推荐： c# - 在 C# 中实现 ImageSearchDLL.dll

文章推荐： android - 在蜂窝前版本的水平 LinearLayout 上使用分隔线

文章推荐： c# - 如何验证模拟对象是否已从模拟列表中删除？

文章推荐： android - Facebook - Android 授权应用程序错误

python 形式
这是一个新手理论问题 - 我刚刚开始使用 Python 并研究 Django 和 orm。问题:如果我开发我的对象并通过额外的开发修改基础对象结构、继承等 - Django 的 ORM 解决方案会自动
Javascript 形式 - 根据选择不同的电子邮件
我正在使用带有服务器端处理器的 JavaScript 表单，并且我希望能够让表单根据下拉列表转到不同的电子邮件。我已经根据其他表格尽了最大努力，但似乎无法通过电子邮件。我已在电子邮件地址的选项标签下添
Haskell Monadic 形式
一个简单的问题:给定定义，(来自 Haskell SOE) do x — el; el\ ...; en => el »= \x — do e2\ ...; en 和: do let d
Angular react 形式
我是 Angular 5 的新手。我目前正在研究 Angular Reactive 表单。我有一个下面的 JSON 结构，我需要在从 FORM 获取值后发回 REST API。 JSON 结构: {
Angular react 形式
我是 Angular 5 的新手。我目前正在研究 Angular Reactive 表单。我有一个下面的 JSON 结构，我需要在从 FORM 获取值后发回 REST API。 JSON 结构: {
Haskell - 形式 A -> A -> ... -> A 的所有函数
我有一个类型(称之为 A)，我想创建一个 A -> A、A -> A -> A、A -> A -> A -> ... 等类型的函数的类型类.这不起作用: {-# LANGUAGE FlexibleIn
Java线程正在重复 Swing 形式
我正在使用 java 线程同时管理多个 (3) 程序。1 用于 Java swing 表单(绘制 UI 以进行输入)，1 用于在系统托盘上设置图标(从 UI 获取输入后立即启动)，1 用于处理输入并将
css - 形式:垂直居中
在当前的元素中，我在表单中遇到了一个问题。表单中标签的字体大小可能大于默认值。如果我把它举起来，那么右边的输入必须垂直居中。我查看了 Bootstrap 和 Foundation，但都没有解决这个问
html - 组元素？形式
为了好玩，我使用了一段从 friend 那里得到的代码，并尝试创建一个包含用户名和密码的登录字段，但我很难获得单词旁边的字段。 username 这个词和你输入的框之间有很大的差距。密码也是如此。这
Angular 形式 - 访问模板中的嵌套控件
我的表单中有一个嵌套的控制组，我想访问它们的表单状态值(如原始和有效)以动态显示验证错误。是这样动态构建的 controlMap['password'] = this.password; contr
Angular 重置 react 形式
发送后我试图重置我的表单，但只有值设置为空。 component.html {{note.value?.length || 0}}/10
php - 将输入添加到 Stripe 形式
我正在尝试自定义 Stripe 结帐表单，但我不知道如何添加输入。我想添加“电话号码”和“姓名”以创建费用和客户。你知道我该怎么做吗？这是我应该自定义的代码。最佳答案您将无法使用
html - 带表格的 Angular 形式
所以我有这个需求，我想以表格的形式提交一个由五个记录组成的表单。这就是它的样子表: 这是对应的代码: Section Q.No Question
Angular react 形式 - 在模糊时验证但在键入时更新模型
我有一个使用 react 形式和输入文本的情况。我需要: 当用户输入时，根据输入的内容建议一个列表(我使用的是 ngx bootstrap typeahead)；仅当用户失去输入焦点时才验证输入字
Angular 强类型 react 形式
我希望重构我的 Angular 项目中的大量组件，以具有强类型的 FormGroups、FormArrays 和 FormControls。我只是在寻找一种实现强类型 react 形式的好方法。任何
php - 如何更改错误类(yii2 形式)
我有事件表格: 'horizontal', 'fieldConfig' => [ 'template' => "{input}\n{hint}\n{error}",
angular - 在新选项选择错误时使用多项选择的 react 形式
是否有关于如何实现多选和响应式表单的示例？我正在尝试在 multiselect-dropdown 上设置所选项目(从数据库中检索)，它会更新显示的项目( View )，但会引发以下错误: core.
javascript - 按钮打破 react 形式
我想在表单中添加按钮以动态添加输入。但是我发现，如果我在表单中添加了一个仅记录到控制台的按钮(并且当我尝试添加输入时)，它将记录日志，然后表单中断。我的Electron应用程序的前端窗口崩溃(不退出但
javascript - 具有隔离范围的指令内的 Angular 形式
我有一个这样的表格此表单位于指令内: angular.module('crowdcoreApp').directive('investorForm',function(){
javascript - 对话框中的 Angular 形式
我在 angularjs Controller 中调用的 $mdDialog 中有一个表单，如下所示: actions-controller.js function callForm() {

首页

博学

6Ren·AI

商城

python - 如何通过 Python Selenium BeautifulSoup 从网站中提取文本形式的证券价格