python - 如何抓取以下链接的不可见页面数据(即 pg :No 11 , 12, 13)，以下代码可以工作到 10 页-6ren

python - 如何抓取以下链接的不可见页面数据(即 pg :No 11 , 12, 13)，以下代码可以工作到 10 页

转载作者：行者123 更新时间：2023-12-01 01:57:06

25

4

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd 
import csv

page = urlopen("https://www.flipkart.com/mobiles/samsung~brand/pr?count=40&p%5B%5D=sort%3Drecency_desc&page=1&sid=tyy%2F4io&viewType=list&wid=1.productCard.PMU_V2")
bsObj = BeautifulSoup(page, 'html.parser')
# List to store Next Page URL's.
nxtPageLink = []
# Extraction of Next Page URL.
for nxtLink in bsObj.findAll(class_="_33m_Yg"):
    completeUrl = ("https://www.flipkart.com" + nxtLink.attrs['href'])
    nxtPageLink.append(completeUrl)
# List to store Scraped Product Data.
URL = []
# Extraction of Product Data from URL.
for i in nxtPageLink:
    url = urlopen(i)
    bs= BeautifulSoup(url, 'html.parser')

    for link in bs.findAll(class_="_1UoZlX"):
        urlBuild = ("https://www.flipkart.com" + link.attrs['href'])
        URL.append(urlBuild)

columnsTitles = ['Link']
test_df = pd.DataFrame({ 'Link': URL})
pd.set_option('display.max_colwidth',0)
print(test_df.info())
test_df

在这里，我试图抓取 13 个页面中的所有产品网址，但我只能抓取 10 页数据...请帮助我

最佳答案

这是因为并非所有页码都显示在首页。

抓取工具应该不断获取当前页面的数据并打开下一页，直到结束。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd 
import csv

# List to store Scraped Product Data.
URL = []

# Start page's url
pageUrl="https://www.flipkart.com/mobiles/samsung~brand/pr?count=40&p%5B%5D=sort%3Drecency_desc&page=1&sid=tyy%2F4io&viewType=list&wid=1.productCard.PMU_V2"

while True:
    page = urlopen(pageUrl)
    bsObj = BeautifulSoup(page, 'html.parser')  

    # Extraction of Product Data from URL.
    for link in bsObj.findAll(class_="_1UoZlX"):
        urlBuild = ("https://www.flipkart.com" + link.attrs['href'])
        URL.append(urlBuild)

    # Get Next page's url, if can't break loop
    nxtLink=bsObj.find(class_="_2kUstJ", text="Next")
    if nxtLink == None:
        break

    # Get next page's url
    pageUrl = ("https://www.flipkart.com" + nxtLink.a.attrs['href'])

columnsTitles = ['Link']
test_df = pd.DataFrame({ 'Link': URL})
pd.set_option('display.max_colwidth',0)
print(test_df.info())
test_df

在本例中，test_df 包含 301 行，

print(test_df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 1 columns):
Link    301 non-null object
dtypes: object(1)
memory usage: 2.4+ KB
None

关于python - 如何抓取以下链接的不可见页面数据(即 pg :No 11 , 12, 13)，以下代码可以工作到 10 页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50036543/

25

4

0

文章推荐： javascript - 在上下文创建阶段提升如何工作

文章推荐： python - 如何根据输入获取一维 numpy 数组的所有可能切片

文章推荐： javascript - 如何在 .css() 方法之后恢复原始 css 值

python - pg.event.set_allowed([pg.KEYDOWN, pg.KEYUP, pg.QUIT]) pygame.error : video system not initialized
运行马里奥游戏时此文件出现错误当我尝试运行文件 super_mario.py 时，我从以下链接( https://github.com/Ja1r0/DQN-play-SuperMario )下载了代码
ruby - Ruby `PG.connect` gem 中的 `PG::Connection.open` 和 'pg' 有什么区别？
来自pg module doc ，似乎连接到 PG 数据库的正确方法是使用: conn = PG::Connection.open(dbname: 'test') 但是，我发现 other examp
node.js - Koa-pg 找不到模块 pg
嘿，所以我试图让 Nodejs Koa 使用 Koa-pg 模块与 postgres 对话，但我一直收到“找不到模块 pg”错误。我已尝试遵循 koa-pg 示例，但效果不佳……因此，我们将不胜感激任
node.js - pg 池 - 使用具有超时功能的 pg 池的正确方法是什么
我需要一些关于 pg npm 的帮助。我已经阅读了许多文章和示例，并且对以正确的方式使用 pg 池感到非常困惑。许多文章都是我读过的旧文章。我想向您展示我的一些代码以及我是如何围绕 db 构建所有
pg- promise : Cancel a query initiated with pg-query-stream
我有一个 postgresql 表，每天都有数千条时间序列数据。我有一个应用程序允许用户检索这些数据。查询可能需要 200 毫秒到 30 秒，具体取决于时间范围，因此这些查询必须是可取消的，以避免对生
ruby-on-rails - Heroku pg :info and pg:psql "Not found"
我不确定我的 heroku postgres 发生了什么，但是当我尝试使用命令行访问它时 pg:info和 pg:psql ，我得到“未找到”。我什至单击 heroku 上的按钮也为我的应用程序创建
pg-promise - 如何使用 pg-promise 将 jsonb[] 数据插入列
给定一个包含 jsonb[] 类型列的表，如何将 json 数组插入到该列中？使用提供的格式化程序 :array、:json 在这种情况下将不起作用 - 除非我缺少正确的组合或其他内容。 const
node.js - 如何将单独的 pg-promise 查询组合成 pg-promise 中的一个结果
我是 node 和 pg-promise 的新手，一直无法弄清楚如何将三个相关查询的结果合并到一个 json 结果中。给定三个相关表: 父实体 create table parent ( id bi
postgresql - 自定义 pg :dump options with Heroku pg:backups capture?
在开发时，我需要拉取最新的数据库，以便我知道我正在使用最新的数据。但是，我们保留了一张表，里面装满了我不需要费心下载的文件，因为它是一个非常大的表。我知道 pg_dump 允许自定义参数，这些参数可
postgresql - gem install pg --with-pg-config 有效， bundle 失败
当我运行时(作为 root) gem install pg -v '0.12.0' -- --with-pg-config=/usr/pgsql-9.1/bin/pg_config 我得到以下输出:
java - @Type(类型=“pg-uuid”)的注释未找到“pg-uuid”类异常
我在尝试使用annotation@type（type=“pg uuid”）时遇到了一些问题。它抛出此异常： Caused by: java.lang.ClassNotFoundException: C
ruby - Mavericks 的 Pg gem : NameError: uninitialized constant PG
我按照这个线程 (Cannot install pg gem in Mavericks with Postgres.app) 获得了 'pg' gem 成功地与 Mavericks 上的 Postgr
postgresql - 转到-pg-pg : can't find dst value for model id =","
正在获取 pg:找不到模型 id="," 的 dst 值我定义了以下模型 // omitting fields which don't seem relevant to the issue // c
ruby - 如何在 Ruby pg gem 中使用 PG::Connection 类的 send_query？
如何在Ruby pg gem 中使用PG::Connection 类的公共(public)实例方法send_query？它可以帮助加快这样的程序的执行时间吗？ a = [1,2,3,4,5,6,..
mysql - 尝试使用 capistrano 进行部署 - 不断收到 pg bundle 错误 - 但我没有使用 pg
大家好，我一直在尝试使用 capistrano 部署我的应用程序。但是，我始终收到以下错误，并且不知道如何解决它。 * executing "cd /var/www/html/mysite.com/r
ruby-on-rails - require 'pg' 返回 true 但未能定义 PGconn 和 PG
在我的 TestLogger 类中，require 'pg'(版本 0.16.0)返回 true，但 PGconn 未注册。到目前为止，只有服务器有这个问题，而且只在TestLogger。其他确实需
node.js - 运行 npm install pg 后出现错误 : Cannot find module 'pg' ,
使用 VSCode。为 Windows 安装了最新的 Node.js(首次用户)以及所需的模块，其中一个是“pg”(npm install pg) 在我的脚本顶部有这样的内容:const pg = r
Using luxon and node-pg: Dates are never equal(使用LUXON和NODE-PG：日期从不相等)
我写了一个简单的脚本：。This.db对应于一个Pool对象。所以我在数据库中选择了一个特定的对象，在它的旁边我试图取回相同的对象，但这次使用了creation_date字段。。我尝试了许多结果变量更
Using luxon and node-pg: Dates are never equal(使用LUXON和NODE-PG：日期从不相等)
我做了一个简单的脚本：。This.db对应于Pool对象。因此，我使用他的ID在我的数据库中选择了一个特定的对象。在它旁边，我试图取回相同的对象，但这次使用的是Creation_Date字段。。我尝试
node.js - 使用 PG-Promise 和 PG-Query-Stream 高效地读取、操作和插入数据
我希望执行以下操作。使用 group by 查询查询大型表以执行值汇总。通过例程运行这些记录以添加一些附加数据将它们高效地插入数据库。我尝试使用 pg-query-stream 将数据作为流读

首页

博学

6Ren·AI

商城

python - 如何抓取以下链接的不可见页面数据(即 pg :No 11 , 12, 13)，以下代码可以工作到 10 页