python - 网页抓取无法通过 Selenium/BS4 获取完整的源代码数据-6ren

python - 网页抓取无法通过 Selenium/BS4 获取完整的源代码数据

转载作者：行者123 更新时间：2023-12-01 08:32:00

25

4

如何从我检查的源中抓取输入标记值属性中的数据，如图所示？

我尝试过使用 BeautifulSoup 和 Selenium，但它们都不适合我。

部分代码如下:

html=driver.page_source

output=driver.find_element_by_css_selector('#bookingForm > div:nth-child(1) > div.bookingType > div:nth-child(15) > div.col-md-9 > input').get_attribute("value")

print(output)

这会返回 NoSuchElementException 错误。

事实上，当我尝试print(html)时，很多源代码数据似乎丢失了。我怀疑这可能是 JS 相关的问题，但是 Selenium(大部分时间都在渲染 JS 上工作)在这个网站上对我不起作用。知道为什么吗？

我也尝试过这些:

html=driver.page_source

soup=bs4.BeautifulSoup(html,'lxml')

test = soup.find("input",{"class":"inputDisable"})

print(test)

print(soup)

print(test) 返回 None，print(soup) 返回大多数输入标签完全缺失的源。

最佳答案

通过检查页面来检查此元素是否存在于该网站上。如果它在那里，很多时候selenium太快了，页面有时无法完全加载。尝试selenium的WAIT功能。很多时候就是这种情况。

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException

browser = webdriver.Firefox()
browser.get("url")
delay = 3 # seconds
try:
    myElem = WebDriverWait(browser, delay).until(EC.presence_of_element_located((By.ID, 'IdOfMyElement')))
    print "Page is ready!"
except TimeoutException:
    print "Loading took too much time!"

关于python - 网页抓取无法通过 Selenium/BS4 获取完整的源代码数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53871550/

25

4

0

文章推荐： gzip - 谷歌云存储控制台 Content-Encoding to gzip

文章推荐： javascript - 同一页面上的多个拖放区会导致出现错误

文章推荐： Python imaplib : Display non-ASCII characters correctly

在浏览器中显示的Java字符串(源代码)
我正在编写一个 Java 应用程序，该应用程序检查网页的源代码，并在满足源代码中的条件时在我的默认浏览器中向我显示该网页。我通过以下方式获取源代码: String source = getUrlSou
安卓蓝牙-源代码
数周以来，我一直在为 Android 上的蓝牙项目而苦苦挣扎。有谁知道我可以去哪里查看 Google 用于使其蓝牙配对和连接逻辑正常工作的实际代码？我浏览了所有的文档、BluetoothChat 应
Hadoop 源代码
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。
特定设备的 Android 源代码
Android 源代码有多个目录，其中包含针对不同设备的代码。此外，在特定目录中，存在显示不同分支和标签的路径。举个例子，在“android/platform/external/iptables”目录
.net - SQLMembershipProvider - 源代码
在哪里可以找到 SQLMembershipProvider (.NET2.0) 的源代码？是可用的么？最佳答案源代码已经发布。 See ScottGu's blog for further de
下载特定的 Android 源代码
我只想知道如何下载特定版本的 Android 源代码。我已经尝试过以下命令 repo init -u https://android.googlesource.com/platform/manifes
frameworks - OpenCL 源代码？
我想看看OpenCL框架是如何实现的。我发现的只是已经编译好的可供下载的库。当然，OpenCL 可以有许多不同的实现，但我想看看其中的一个来了解它是如何完成的。为了确保我自己清楚，OpenCL 框
像专业书籍中一样列出 LaTeX 源代码
latex 源代码列表应该是什么样子才能产生像已知书籍中那样的输出，例如 Spring 框架的输出？我尝试过使用 latex 列表包，但无法生成看起来像下面一样好的东西。因此，我主要对生成类似以下示例
内置函数的 PHP 源代码
PHP 是用 C 语言编写的吗？我在哪里可以在线找到 PHP 源代码而无需下载全部内容？最佳答案 PHP 函数是用 C 编写的 - 您可以在 lxr.php.net 找到可浏览的源代码. 例如:ht
elasticsearch - script_score查询不支持[源代码]
我正在使用Elasticsearch OSS的官方Docker镜像(docker.elastic.co/elasticsearch/elasticsearch-oss:6.2.4)，似乎完全无法使用s
c++ - 在Cython中编译C和C++源代码
我试图在Cython中同时编译C和C++源代码。这是我当前的设置: -setup.py from distutils.core import setup from Cython.Build impor
java - 如何在java中使用selenium获取页面的常规(!)源代码？
好吧，事情是这样的:你们所有人可能都在想同样的事情:您可以使用 driver.getPageSource(); 这部分是正确的。唯一的问题是源代码以一种相当奇怪的方式编译，所有代码都在其中 \&quo
java - TwoLineListItem 源代码
由于 TwoLineListItem 自 API 17 起已被弃用，因此我已采取措施将其替换为自定义 XML 和 ViewHolder。但是，我真的希望我的应用程序看起来与使用 TwoLineList
java - getInputStream() 源代码
要从 HttpURLConnection 获取 InputStream，我们的代码如下 urlConnection.getInputStream(); 如果InputStream是一个Abstract
c++ - 如何编译没有项目文件的C++源代码？
我刚刚开始学习更多关于 C/C++ 的知识，我正在使用 Visual Studio 2013 来管理代码。我正在使用 Tobii EyeX 眼睛注视系统的项目要求我能够稍微调整此代码，但是我不明白如
ios - UIWebView 源代码
我在按钮上有一个IBAction，其中包含以下代码，我尝试使用它来检索 UIWebView 的源代码: - (IBAction)loadInAWebView:(id)sender { [self
调色板生成器的 javascript 源代码
我正在 asp.net 中创建一个网站，我只是想知道有什么方法可以使用 JavaScript 从图像生成调色板吗？类似于 1) http://www.cssdrive.com/imagepalette
c++ - WinKill() 源代码
有人可以分享 WinKill() from AutoIt 的源代码吗？？我想知道它如何处理消息(是/否/取消)以确保它得到正确处理。我想用它来清理桌面上的意外弹出窗口。最佳答案正如我们在下面的
适用于所有平台的 Opencv 源代码
我的问题与 Opencv 的源代码有关。在我看来不同的平台the Opencv website提供不同的代码结构。我只是想知道是否有可能为所有不同的平台提供一个源代码。使用相同的源代码，我可以针对不同
python - 如何将python源代码转换为C++源代码
这个问题在这里已经有了答案: Convert Python program to C/C++ code? [closed] (8 个答案) 关闭 3 年前。我一直在努力寻找一种方法将 .py 源文

首页

博学

6Ren·AI

商城

python - 网页抓取无法通过 Selenium/BS4 获取完整的源代码数据