- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我编写了一个脚本来抓取网站以获取特定类别中的所有产品信息,但当该特定类别中只有 3000 个商品时,我的代码返回 500 000 多行。
我对 Python 也很陌生,因此非常感谢您的帮助。
代码附在下面:
# -*- coding: utf-8 -*-
"""
Created on Mon Feb 4 20:31:23 2019
@author:
"""
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
import selenium.webdriver.support.ui as ui
import selenium.webdriver.support.expected_conditions as EC
from bs4 import BeautifulSoup
import os, sys
import time
from urllib.parse import urljoin
import pandas as pd
import re
import numpy as np
# base set up
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--ignore-ssl-errors')
os.chdir("C:/Users/user/desktop/scripts/python")
cwd = os.getcwd()
main_dir = os.path.abspath(os.path.join(cwd, os.pardir))
print('Main Directory:', main_dir)
chromedriver = ("C:/Users/user/desktop/scripts/python/chromedriver.exe")
os.environ["webdriver.chrome.driver"] = chromedriver
# browser = webdriver.Chrome(options=options, executable_path=chromedriver)
mainurl = "https://www.bunnings.com.au/our-range"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
page = requests.get(mainurl, headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
# script start
subcat = []
for item in soup.findAll('ul', attrs={'class': 'chalkboard-menu'}):
links = item.find_all('a')
for link in links:
subcat.append(urljoin(mainurl, link.get("href")))
subcat
result = pd.DataFrame()
for adrs in subcat[0:1]:
# headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
# page = requests.get(adrs, headers=headers)
# soup = BeautifulSoup(page.content, 'html.parser')
# pagelink = adrs
# adrs="https://www.bunnings.com.au/our-range/storage-cleaning/cleaning/brushware-mops/indoor-brooms"
catProd = pd.DataFrame()
url = adrs
browser = webdriver.Chrome(options=options, executable_path=chromedriver)
browser.get(url)
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
match = False
while (match == False):
lastCount = lenOfPage
time.sleep(3)
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
if lastCount == lenOfPage:
match = True
reached= False
while (reached==False):
try:
browser.find_element_by_css_selector('#MoreProductsButton > span').click()
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
match = True
while (match == True):
lastCount = lenOfPage
time.sleep(3)
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
if lastCount == lenOfPage:
match = True
browser.find_element_by_css_selector('#content-layout_inside-anchor > div.search-result__content > div > div > section > div:nth-child(4) > div > div:nth-child(2) > div > button > div.view-more_btn_text').click()
except:
reached=True
# grab the items
page = browser.page_source
soup = BeautifulSoup(page, 'html.parser')
browser.close()
for article in soup.findAll('article', attrs={'class':'product-list__item hproduct special-order-product'}):
for product in article.findAll('img', attrs={'class': 'photo'}):
pName = product['alt']
pCat = adrs
pID = article['data-product-id']
temp= pd.DataFrame({'proID':[pID],'Product':[pName],'Category':[pCat]})
catProd=catProd.append(temp)
result = result.append(catProd)
time.sleep(3)
result.head()
#writes to CSV
writer = pd.ExcelWriter('test123123.xlsx')
result.to_excel(writer,'Sheet1')
writer.save()
代码需要大约 20 分钟来迭代 3000~ 个项目,在我看来这很疯狂,但主要问题仍然在于,当我只需要 3500 行时,我得到了太多的重复项和 500 000 行对于该特定类别。
最佳答案
问题就在这里:
for product in article.findAll('img', attrs={'class': 'photo'}):
pName = product['alt']
pCat = adrs
pID = article['data-product-id']
temp= pd.DataFrame({'proID':[pID],'Product':[pName],'Category':[pCat]}) #<-------------- temp DataFrame
catProd=catProd.append(temp) #<------------ temp appending into catProd dataframe
result = result.append(catProd) #<----------- catProd appending into result DataFrame
您基本上是在进行双重附加,它获取您的 temp
数据帧,并附加到您的 catProd
数据帧...然后紧接着附加到您的 结果
数据框。因此,您的结果数据框正在呈指数级增长。
有几种方法可以解决这个问题。一种是将您的 result = result.append(temp)
移出该循环,以便 catProd
附加到完整 catProd 之后的
已满。或者,直接删除您的 result
catProd
并继续附加到您的 结果
中。
我还清理了一些东西。 IE。重置数据帧的索引,并且不将索引包含在 Excel 写入中。我还添加了显式等待(即等待按钮显示),而不是 time.sleep,这应该会加快速度。
完整代码如下。不要忘记更改 for adrs in subcat[0:1]
,以便它遍历整个列表。我只是让它通过第一个网址。
最后一件事是我加入了一种计时方法。仅运行第一个网址,895 个产品并保存到 csv 中,持续时间:0 小时,02 分钟,48 秒
最后,我必须注释掉一些东西,比如 os.chdir 之类的东西,以便我可以运行它。所以不要忘记取消注释这些东西。
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
import selenium.webdriver.support.ui as ui
from selenium.webdriver.support.ui import WebDriverWait
import selenium.webdriver.support.expected_conditions as EC
from bs4 import BeautifulSoup
import os, sys
import time
from urllib.parse import urljoin
import pandas as pd
import re
import numpy as np
import datetime
# base set up
start_time = datetime.datetime.now()
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--ignore-ssl-errors')
#os.chdir("C:/Users/user/desktop/scripts/python")
#cwd = os.getcwd()
#main_dir = os.path.abspath(os.path.join(cwd, os.pardir))
#print('Main Directory:', main_dir)
chromedriver = ("C:/chromedriver_win32/chromedriver.exe")
os.environ["webdriver.chrome.driver"] = chromedriver
# browser = webdriver.Chrome(options=options, executable_path=chromedriver)
mainurl = "https://www.bunnings.com.au/our-range"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
page = requests.get(mainurl, headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
# script start
subcat = []
for item in soup.findAll('ul', attrs={'class': 'chalkboard-menu'}):
links = item.find_all('a')
for link in links:
subcat.append(urljoin(mainurl, link.get("href")))
subcat
result = pd.DataFrame()
for adrs in subcat:
# headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
# page = requests.get(adrs, headers=headers)
# soup = BeautifulSoup(page.content, 'html.parser')
# pagelink = adrs
# adrs="https://www.bunnings.com.au/our-range/storage-cleaning/cleaning/brushware-mops/indoor-brooms"
catProd = pd.DataFrame()
url = adrs
browser = webdriver.Chrome(options=options, executable_path=chromedriver)
browser.get(url)
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
match = False
while (match == False):
lastCount = lenOfPage
#time.sleep(3)
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
if lastCount == lenOfPage:
match = True
reached= False
while (reached==False):
try:
wait = WebDriverWait(browser, 10)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#MoreProductsButton")))
browser.find_element_by_css_selector('#MoreProductsButton').click()
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
match = True
while (match == True):
lastCount = lenOfPage
#time.sleep(3)
lenOfPage = browser.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
if lastCount == lenOfPage:
match = True
#time.sleep(3)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "div.view-more_btn_text")))
browser.find_element_by_css_selector('#content-layout_inside-anchor > div.search-result__content > div > div > section > div:nth-child(4) > div > div:nth-child(2) > div > button > div.view-more_btn_text').click()
except:
reached=True
# grab the items
page = browser.page_source
soup = BeautifulSoup(page, 'html.parser')
browser.close()
for article in soup.findAll('article', attrs={'class':'product-list__item hproduct special-order-product'}):
for product in article.findAll('img', attrs={'class': 'photo'}):
pName = product['alt']
pCat = adrs
pID = article['data-product-id']
temp= pd.DataFrame({'proID':[pID],'Product':[pName],'Category':[pCat]})
#catProd=catProd.append(temp)
result = result.append(temp)
#time.sleep(3)
result.head()
result.reset_index(drop=True)
#writes to CSV
writer = pd.ExcelWriter('C:/test123123.xlsx')
result.to_excel(writer,'Sheet1', index=False)
writer.save()
finish_time = datetime.datetime.now()
duration = finish_time - start_time
dur_list = str(duration).split(':')
hour = dur_list[0]
minutes = dur_list[1]
seconds = dur_list[2].split('.')[0]
print ('Duration: %s Hours, %s Minutes, %s Seconds' %(hour, minutes, seconds))
关于python - Selenium Web Scrape - 为什么这个脚本返回 500k 行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54564691/
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我们可以说 O(K + (N-K)logK)相当于O(K + N logK)对于 1 < = K <= N ? 最佳答案 简短的回答是它们不等价,这取决于k 的值。如果k等于N,那么第一个复杂度是O(
我有以下解决方案,但我从其他评论者那里听说它是 O(N * K * K),而不是 O(N * K)其中 N 是 K 列表的(最大)长度,K 是列表的数量。例如,给定列表 [1, 2, 3] 和 [4,
我试图理解这些语法结构之间的语义差异。 if ((i% k) == (l % k) == 0) 和 if ((i % k) == 0 && (l % k) == 0) 最佳答案 您的特定表达式((i
我有时会使用一维数组: A = np.array([1, 2, 3, 4]) 或 2D 阵列(使用 scipy.io.wavfile 读取单声道或立体声信号): A = np.array([[1, 2
在文档聚类过程中,作为数据预处理步骤,我首先应用奇异向量分解得到U、S和Vt 然后通过选择适当数量的特征值,我截断了 Vt,这让我从阅读的内容中得到了很好的文档-文档相关性 here .现在我正在对矩
我问的是关于 Top K 算法的问题。我认为 O(n + k log n) 应该更快,因为……例如,如果您尝试插入 k = 300 和 n = 100000000,我们可以看到 O(n + k log
这个问题与另一个问题R:sample()密切相关。 。我想在 R 中找到一种方法来列出 k 个数字的所有排列,总和为 k,其中每个数字都是从 0:k 中选择的。如果k=7,我可以从0,1,...,7中
我目前正在评估基于隐式反馈的推荐系统。我对排名任务的评估指标有点困惑。具体来说,我希望通过精确度和召回率来进行评估。 Precision@k has the advantage of not requ
我在 Python 中工作,需要找到一种算法来生成所有可能的 n 维 k,k,...,k 数组,每个数组都沿轴有一行 1。因此,该函数接受两个数字 - n 和 k,并且应该返回一个数组列表,其中包含沿
我们有 N 对。每对包含两个数字。我们必须找到最大数 K,这样如果我们从给定的 N 对中取 J (1 2,如果我们选择三对 (1,2),我们只有两个不同的数字,即 1 和 2。 从一个开始检查每个可能
鉴于以下问题,我不能完全确定我当前的解决方案: 问题: 给定一个包含 n 元素的最大堆,它存储在数组 A 中,是否可以打印所有最大的 K 元素在 O(K*log(K)) 中? 我的回答: 是的,是的,
我明白了: val vector: RDD[(String, Array[String])] = [("a", {v1,v2,..}),("b", {u1,u2,..})] 想转换成: RDD[(St
我有 X 个正数,索引为 x_i。每个 x_i 需要进入 K 组之一(其中 K 是预先确定的)。令 S_j 为 K_j 中所有 x_i 的总和。我需要分配所有 x_i 以使所有 S_j 的方差最小化。
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。 这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
我正在研究寻找原始数的算法,看到下面的语句,我不明白为什么。 while (k*k <= n) 优于 while (k <= Math.sqrt(n)) 是因为函数调用吗?该调用函数使用更多资源。 更
我想找到一种尽可能快的方法来将两个小 bool 矩阵相乘,其中小意味着 8x8、9x9 ... 16x16。这个例程会被大量使用,所以需要非常高效,所以请不要建议直截了当的解决方案应该足够快。 对于
有没有一种惯用的方法来获取 Set和 Function ,并获得 Map实时取景? (即 Map 由 Set 和 Function 组合支持,例如,如果将元素添加到 Set ,则相应的条目也存在于 M
这个问题在这里已经有了答案: Can a local variable's memory be accessed outside its scope? (20 个答案) returning addr
给定一个矩阵:- k = [1 2 3 ; 4 5 6 ; 7 8 NaN]; 如果我想用 0 替换一个数字,比如 2,我可以使用这个:k(k==2) =
我是一名优秀的程序员,十分优秀!