python-2.7 - Python 网页抓取(Beautiful Soup、Selenium 和 PhantomJS): Only scraping part of full page-6ren

python-2.7 - Python 网页抓取(Beautiful Soup、Selenium 和 PhantomJS): Only scraping part of full page

转载作者：行者123 更新时间：2023-12-04 21:10:54

26

4

您好，我在尝试从网站(fantsylabs dotcom)中抓取数据以进行建模时遇到问题。我只是一个黑客，所以请原谅我对 comp sci 术语的无知。我试图完成的是......

使用 selenium 登录网站并导航到包含数据的页面。

## Initialize and load the web page
url = "website url"
driver = webdriver.Firefox()
driver.get(url)
time.sleep(3)

## Fill out forms and login to site
username = driver.find_element_by_name('input')
password = driver.find_element_by_name('password')
username.send_keys('username')
password.send_keys('password')
login_attempt = driver.find_element_by_class_name("pull-right")
login_attempt.click()

## Find and open the page with the data that I wish to scrape
link = driver.find_element_by_partial_link_text('Player Models')
link.click()
time.sleep(10)

##UPDATED CODE TO TRY AND SCROLL DOWN TO LOAD ALL THE DYNAMIC DATA
scroll = driver.find_element_by_class_name("ag-body-viewport")
driver.execute_script("arguments[0].scrollIntoView();", scroll)

## Try to allow time for the full page to load the lazy way then pass to BeautifulSoup
time.sleep(10)
html2 = driver.page_source

soup = BeautifulSoup(html2, "lxml", from_encoding="utf-8")
div = soup.find_all('div', {'class':'ag-pinned-cols-container'})
## continue to scrape what I want

这个过程的工作原理是它登录，导航到正确的页面，但是一旦页面完成动态加载(30 秒)，将它传递给 beautifulsoup。我在表中看到了大约 300 多个我想要抓取的实例......但是 bs4 抓取器只吐出 300 个的大约 30 个实例。从我自己的研究来看，这似乎可能是通过动态加载数据的问题javascript 并且只有推送到 html 的内容才会被 bs4 解析？ ( Using Python requests.get to parse html code that does not load at once )

对于任何提供建议而不在网站上创建配置文件的人来说，可能很难重现我的示例，但是使用 phantomJS 初始化浏览器是否是“抓取”所有实例以捕获所有所需数据所需的全部？

    driver = webdriver.PhantomJS() ##instead of webdriver.Firefox()

任何想法或经验将不胜感激，因为如果这是我遇到的情况，我从来不必处理动态页面/抓取 javascript。

在 Alecs 回复后更新:

下面是目标数据的屏幕截图(以蓝色突出显示)。您可以在图像右侧看到滚动条，它嵌入在页面中。我还提供了此容器中页面源代码的 View 。

我修改了我提供的原始代码以尝试向下滚动到底部并完全加载页面，但它无法执行此操作。当我将驱动程序设置为 Firefox() 时，我可以看到页面通过外部滚动条向下移动，但不在目标容器内。我希望这是有道理的。

再次感谢您的任何建议/指导。

最佳答案

这并不容易回答，因为我们没有办法重现这个问题。

一个问题是lxml是 not handling this specific HTML particularly well您可能需要尝试 changing the parser :

soup = BeautifulSoup(html2, "html.parser")
soup = BeautifulSoup(html2, "html5lib")

此外，在 BeautifulSoup 中可能不需要首先。您可以使用 selenium 定位元素以很多不同的方式。例如，在这种情况下:

for div in driver.find_elements_by_css_selector(".ag-pinned-cols-container'"):
    # do smth with 'div'

也可能是页面滚动到底部时动态加载了数据。在这种情况下，您可能需要将页面滚动到底部，直到看到所需的数据量或滚动时不再加载新数据。以下是带有示例解决方案的相关线程:

Scrolling web page using selenium python webdriver

Scroll down to bottom of infinite page with PhantomJS in Python

Slow scrolling down the page using Selenium

Stop the Scroll in Dynamic Page with Selenium in Python

关于python-2.7 - Python 网页抓取(Beautiful Soup、Selenium 和 PhantomJS): Only scraping part of full page，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34769715/

26

4

0

文章推荐： scala - 如何处理Reader[A, Future[B]]

文章推荐： vba - Byref 参数类型不匹配

文章推荐： php - 如何在我的 REST api 中捕获请求 url/域？

文章推荐： R 导入除了几个函数之外的所有函数

graphics - "soup"(定义)在 "triangle soup"或 "polygon soup"中意味着什么？
我不知道“汤”字面意思在与计算机图形相关的“三角形汤”或“多边形汤”中使用时是什么意思。是不是和我们用勺子吃饭的“汤”有关？ (我的母语不是英语。) 最佳答案维基百科来拯救! A polygon s
Python - Beautiful Soup 或 soup.find_all(....) 中的条件
我们正在废弃 Amazon.in 网站以检索任何产品的价格。所有产品在“span”标签中的“id”属性都具有不同的值，例如； id = 'priceblock_ourprice', id = 'p
python - 如何使用 BeautifulSoup 将标签内容从一个 soup 移动到模板 soup
我有一个这样的模板: 和这样的输入 HTML COMPLEX HTML 其中 COMPLEX_HTML 是很多子标签(很干净 - 验证) 我试图将输入 HTML 的 body 标记内的 HTML
python - BeautifulSoup，soup() 和 soup.findAll() 之间的区别？
我对 soup('tag_name') 和 soup.find_all('tag_name') 之间的区别感到困惑。下面是一个包含一小段 html 的示例: from bs4 import Beaut
python - soup.find_all 有效但 soup.select 无效
我正在尝试使用 css 选择器解析 html 页面 import requests import webbrowser from bs4 import BeautifulSoup page = req
python - 尝试使用 soup.select 和 soup.find_all 提取网址
这是网页 HTML 源代码的一部分: apple banana cherry melon 我想提取我想要的网址，比如以/Result 开头的网址？我刚刚了解到您可以在 beautiful soup
python - Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接
我注意到一个非常烦人的错误:BeautifulSoup4(包:bs4)经常发现比以前版本(包:BeautifulSoup)更少的标签。这是该问题的一个可重现的实例: import requests
Python - 如何使用带有随机类字符的 soup
所以我一直在试图弄清楚如何抓取一个购买/销售网站的网站，我发现了 HTML 中的所有内容，但该类包含不同的随机数，例如:
terminal - centOS服务器怎么安装beautiful soup
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwa
网站的Python正确编码(Beautiful Soup)
我正在尝试加载 html 页面并输出文本，即使我正确获取网页，BeautifulSoup 以某种方式破坏了编码。来源: # -*- coding: utf-8 -*- import requests
808. Soup Servings 分汤
题目地址：https://leetcode.com/problems/soup-servings/description/ 题目描述： There are two types of soup: t
Python Beautiful Soup find_all
您好，我正在尝试从网站获取一些信息。请原谅我，如果我的格式有任何错误，这是我第一次发布到 SO。 soup.find('div', {"class":"stars"}) 从这里我收到我需要 “
python - Beautiful Soup 选择谷歌图像返回空列表
我想从 Google Arts & Culture 检索信息使用 BeautifulSoup。我检查了许多 stackoverflow 帖子( [1] ， [2] , [3] , [4] , [5]
Python -- Beautiful Soup -- 如果标签为空或有值则返回信息
我决定学习 Python，因为我现在有更多时间(由于大流行)并且一直在自学 Python。我试图从一个网站上刮取税率，几乎可以获得我需要的一切。下面是来自我的 Soup 变量以及相关 Python
python - 从页面中获取所有链接 Beautiful Soup
我正在使用 beautifulsoup 从页面中获取所有链接。我的代码是: import requests from bs4 import BeautifulSoup url = 'http://ww
python - Beautiful Soup 根据部分属性值查找标签
我正在尝试根据部分属性值来识别 html 文档中的标签。例如，如果我有一个 Beautifulsoup 对象: import bs4 as BeautifulSoup r = requests.ge
python - Beautiful Soup 查找具有多个类的元素
Показать телефон 如何在 Beautiful Soup 中找到上述元素？我尝试了以下方法，但没有奏效: show = soup.find('div', {'class': 'acti
python - beautiful soup 通过指定两件事在表中查找链接
我如何获得结果网址:https://www.sec.gov/Archives/edgar/data/1633917/000163391718000094/0001633917-18-000094-in
Python Beautiful Soup 使用类解析表
我是 python 新手，尝试从页面中提取表格，但无法使用 BS4 找到该表格。你能告诉我我哪里出错了吗？ import requests from bs4 import BeautifulSoup
python - Beautiful Soup 无法处理大文件
我有一个巨大的 XML 文件(1.2 G)，其中包含数百万个 MusicAlbums 的信息，每个 MusicAlbums 都具有如下简单格式 P 22 Exitos

首页

博学

6Ren·AI

商城

python-2.7 - Python 网页抓取(Beautiful Soup、Selenium 和 PhantomJS): Only scraping part of full page