- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import csv
page = urlopen("https://www.flipkart.com/mobiles/samsung~brand/pr?count=40&p%5B%5D=sort%3Drecency_desc&page=1&sid=tyy%2F4io&viewType=list&wid=1.productCard.PMU_V2")
bsObj = BeautifulSoup(page, 'html.parser')
# List to store Next Page URL's.
nxtPageLink = []
# Extraction of Next Page URL.
for nxtLink in bsObj.findAll(class_="_33m_Yg"):
completeUrl = ("https://www.flipkart.com" + nxtLink.attrs['href'])
nxtPageLink.append(completeUrl)
# List to store Scraped Product Data.
URL = []
# Extraction of Product Data from URL.
for i in nxtPageLink:
url = urlopen(i)
bs= BeautifulSoup(url, 'html.parser')
for link in bs.findAll(class_="_1UoZlX"):
urlBuild = ("https://www.flipkart.com" + link.attrs['href'])
URL.append(urlBuild)
columnsTitles = ['Link']
test_df = pd.DataFrame({ 'Link': URL})
pd.set_option('display.max_colwidth',0)
print(test_df.info())
test_df
在这里,我试图抓取 13 个页面中的所有产品网址,但我只能抓取 10 页数据...请帮助我
最佳答案
这是因为并非所有页码都显示在首页。
抓取工具应该不断获取当前页面的数据并打开下一页,直到结束。
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import csv
# List to store Scraped Product Data.
URL = []
# Start page's url
pageUrl="https://www.flipkart.com/mobiles/samsung~brand/pr?count=40&p%5B%5D=sort%3Drecency_desc&page=1&sid=tyy%2F4io&viewType=list&wid=1.productCard.PMU_V2"
while True:
page = urlopen(pageUrl)
bsObj = BeautifulSoup(page, 'html.parser')
# Extraction of Product Data from URL.
for link in bsObj.findAll(class_="_1UoZlX"):
urlBuild = ("https://www.flipkart.com" + link.attrs['href'])
URL.append(urlBuild)
# Get Next page's url, if can't break loop
nxtLink=bsObj.find(class_="_2kUstJ", text="Next")
if nxtLink == None:
break
# Get next page's url
pageUrl = ("https://www.flipkart.com" + nxtLink.a.attrs['href'])
columnsTitles = ['Link']
test_df = pd.DataFrame({ 'Link': URL})
pd.set_option('display.max_colwidth',0)
print(test_df.info())
test_df
在本例中,test_df 包含 301 行,
print(test_df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 1 columns):
Link 301 non-null object
dtypes: object(1)
memory usage: 2.4+ KB
None
关于python - 如何抓取以下链接的不可见页面数据(即 pg :No 11 , 12, 13),以下代码可以工作到 10 页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50036543/
运行马里奥游戏时此文件出现错误当我尝试运行文件 super_mario.py 时,我从以下链接( https://github.com/Ja1r0/DQN-play-SuperMario )下载了代码
来自pg module doc ,似乎连接到 PG 数据库的正确方法是使用: conn = PG::Connection.open(dbname: 'test') 但是,我发现 other examp
嘿,所以我试图让 Nodejs Koa 使用 Koa-pg 模块与 postgres 对话,但我一直收到“找不到模块 pg”错误。我已尝试遵循 koa-pg 示例,但效果不佳……因此,我们将不胜感激任
我需要一些关于 pg npm 的帮助。 我已经阅读了许多文章和示例,并且对以正确的方式使用 pg 池感到非常困惑。许多文章都是我读过的旧文章。 我想向您展示我的一些代码以及我是如何围绕 db 构建所有
我有一个 postgresql 表,每天都有数千条时间序列数据。我有一个应用程序允许用户检索这些数据。查询可能需要 200 毫秒到 30 秒,具体取决于时间范围,因此这些查询必须是可取消的,以避免对生
我不确定我的 heroku postgres 发生了什么,但是当我尝试使用命令行访问它时 pg:info和 pg:psql ,我得到“未找到”。 我什至单击 heroku 上的按钮也为我的应用程序创建
给定一个包含 jsonb[] 类型列的表,如何将 json 数组插入到该列中? 使用提供的格式化程序 :array、:json 在这种情况下将不起作用 - 除非我缺少正确的组合或其他内容。 const
我是 node 和 pg-promise 的新手,一直无法弄清楚如何将三个相关查询的结果合并到一个 json 结果中。 给定三个相关表: 父实体 create table parent ( id bi
在开发时,我需要拉取最新的数据库,以便我知道我正在使用最新的数据。但是,我们保留了一张表,里面装满了我不需要费心下载的文件,因为它是一个非常大的表。 我知道 pg_dump 允许自定义参数,这些参数可
当我运行时(作为 root) gem install pg -v '0.12.0' -- --with-pg-config=/usr/pgsql-9.1/bin/pg_config 我得到以下输出:
我在尝试使用annotation@type(type=“pg uuid”)时遇到了一些问题。它抛出此异常: Caused by: java.lang.ClassNotFoundException: C
我按照这个线程 (Cannot install pg gem in Mavericks with Postgres.app) 获得了 'pg' gem 成功地与 Mavericks 上的 Postgr
正在获取 pg:找不到模型 id="," 的 dst 值 我定义了以下模型 // omitting fields which don't seem relevant to the issue // c
如何在Ruby pg gem 中使用PG::Connection 类的公共(public)实例方法send_query? 它可以帮助加快这样的程序的执行时间吗? a = [1,2,3,4,5,6,..
大家好,我一直在尝试使用 capistrano 部署我的应用程序。但是,我始终收到以下错误,并且不知道如何解决它。 * executing "cd /var/www/html/mysite.com/r
在我的 TestLogger 类中,require 'pg'(版本 0.16.0)返回 true,但 PGconn 未注册。 到目前为止,只有服务器有这个问题,而且只在TestLogger。其他确实需
使用 VSCode。为 Windows 安装了最新的 Node.js(首次用户)以及所需的模块,其中一个是“pg”(npm install pg) 在我的脚本顶部有这样的内容:const pg = r
我写了一个简单的脚本:。This.db对应于一个Pool对象。所以我在数据库中选择了一个特定的对象,在它的旁边我试图取回相同的对象,但这次使用了creation_date字段。。我尝试了许多结果变量更
我做了一个简单的脚本:。This.db对应于Pool对象。因此,我使用他的ID在我的数据库中选择了一个特定的对象。在它旁边,我试图取回相同的对象,但这次使用的是Creation_Date字段。。我尝试
我希望执行以下操作。 使用 group by 查询查询大型表以执行值汇总。 通过例程运行这些记录以添加一些附加数据 将它们高效地插入数据库。 我尝试使用 pg-query-stream 将数据作为流读
我是一名优秀的程序员,十分优秀!