python - 如何抓取更多数据-6ren

python - 如何抓取更多数据

转载作者：太空宇宙更新时间：2023-11-03 21:39:08

25

4

我正在尝试下载他们在以下网站上拥有的所有钻石:https://www.bluenile.com/diamond-search?tag=none&track=NavDiaVAll

计划是获取信息并尝试找出我最喜欢购买的一款(我会做一些回归来找出哪些具有很大的值(value)并选择我最喜欢的)

为此，我编写了第一个爬虫。问题是它似乎只占用了前 60 颗钻石，而不是我在网站上看到的所有钻石。理想情况下，我希望它能够获取所有 100k+ 不同类型的钻石(圆形、垫形等)。如何让它向我提供所有数据？

(我认为这是因为一些新行仅在我向下滚动后加载，但我认为第一次加载超过 60 行，如果我向下滚动到底部，它只显示 1000)

这是我的代码:

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.bluenile.com/diamond-search?tag=none&track=NavDiaVAll'

url_response = requests.get(url)
soup = BeautifulSoup(url_response.content, "html.parser")

""" Now we have the page as soup

Lets start to get the header"""

headerinctags = soup.find_all('div', class_='grid-header normal-header')
header = headerinctags[0].get_text(';')

diamondsmessy = soup.find_all('a', class_='grid-row row ')
diamondscleaned = diamondsmessy[1].get_text(";")


"""Create diamonds dataframe with the header; take out the 1st value"""
header = header.split(";")
del header[0]
diamonds = pd.DataFrame(columns=header)

""" place rows into dataframe after being split; use a & b as dummy variables; take out 5th value"""

for i in range(len(diamondsmessy)):
    a = diamondsmessy[i].get_text(";")
    b = a.split(";")
    del b[4]
    a = pd.DataFrame(b, index=header)
    b = a.transpose()
    diamonds = pd.concat([diamonds, b], ignore_index=True)

print(diamonds)

最佳答案

我已经知道该怎么做了。它并不快，但本质上我需要 Selenium 来向下滚动页面。我仍然被 1000 行困住，所以循环一些东西来更新页面。

为了帮助其他人，代码在这里:

import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time

#for fun, let's time this
start = time.time()

"""Define important numbers"""

scroll_pauze_time = 0.5 #delay after scroll
scroll_number = 20 #number of times scrolled per page
pages_visited = 25 #number of times the price is increased

"""Set up the website"""

url = 'https://www.bluenile.com/diamond-search?tag=none&track=NavDiaVAll'

url_response = webdriver.Firefox()
url_response.get(url)

#minimum & max carat:
min_carat = url_response.find_element_by_css_selector('.carat-filter .allowHighAscii:nth-child(1)')
min_carat.send_keys('0.8')
min_carat.send_keys(Keys.ENTER)

max_carat = url_response.find_element_by_css_selector('.carat-filter .allowHighAscii:nth-child(2)')
max_carat.send_keys('1.05')
max_carat.send_keys(Keys.ENTER)


#Shapes of diamonds:
url_response.find_element_by_css_selector('.shape-filter-button:nth-child(2) > .shape-filter-button-inner').click()
url_response.find_element_by_css_selector('.shape-filter-button:nth-child(4) > .shape-filter-button-inner').click()
url_response.find_element_by_css_selector('.shape-filter-button:nth-child(5) > .shape-filter-button-inner').click()
url_response.find_element_by_css_selector('.shape-filter-button:nth-child(7) > .shape-filter-button-inner').click()

"""Create diamonds dataframe with the header; take out the 1st value"""
soup = BeautifulSoup(url_response.page_source, "html.parser")

headerinctags = soup.find_all('div', class_='grid-header normal-header')
header = headerinctags[0].get_text(';')

header = header.split(";")
del header[0]
diamonds = pd.DataFrame(columns=header)

"""Start loop, dummy variable j"""
for j in range(pages_visited):

    print(j)
    url_response.execute_script("window.scrollTo(0, 0)")

    #Set the minimum price
    if j != 0:
        min_price = url_response.find_element_by_css_selector('input[name="minValue"]')

        min_price.send_keys(Keys.CONTROL,"a");
        min_price.send_keys(Keys.DELETE);

        a = diamonds.loc[len(diamonds.count(1))-1,"Price"]
        a = a.replace('$','')
        a = a.replace(',','')
        min_price.send_keys(a)
        min_price.send_keys(Keys.ENTER)

    #Scroll down
    for i in range(scroll_number):
            url_response.execute_script("window.scrollTo(0, "+str((i+1)*2000)+')')
            time.sleep(scroll_pauze_time)

    #Grab data
    soup = BeautifulSoup(url_response.page_source, "html.parser")
    diamondsmessy = soup.find_all('a', class_='grid-row row ')


    """ place rows into dataframe after being split; use a & b as dummy variables; take out 5th value"""

    for i in range(len(diamondsmessy)):
        a = diamondsmessy[i].get_text(";")
        b = a.split(";")
        del b[4]
        a = pd.DataFrame(b, index=header)
        b = a.transpose()
        diamonds = pd.concat([diamonds, b], ignore_index=True)

diamonds = diamonds.drop_duplicates()
diamonds.to_csv('diamondsoutput.csv')

print(diamonds)

end = time.time()
print("This took "+ str(end-start)+" seconds")

关于python - 如何抓取更多数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53015772/

25

4

0

文章推荐： python - 通过网络抓取使用帖子从网站获取结果

文章推荐： python - 将 numpy 图像转换为 QPixmap

文章推荐： javascript - 上传时如何设置图像不透明度的不透明度？

文章推荐： python - 将 API 结果导出到 CSV 文件(分隔方式正确吗？)

ios - 如何使“更多”按钮始终进入“更多 View ”？
我正在开发一个带选项卡栏的 ios 应用程序。我的栏上有超过 5 个按钮，所以在 iphone 上我有更多的按钮。现在，假设我有这个按钮:Button1 Button2 Button3 Button4
ios - 修改 UITabBarController 的“更多”选项卡中显示的选项卡导航栏上的“更多”按钮
我有一个带有 UITabBarController 的应用，其中有超过五个选项卡。当我按更多选项卡时，我会转到moreNavigationController，它是一个UINavigationCon
ios - 当我单击“更多”按钮而不是我离开的 VC 时，如何返回 iOS 中“更多...”按钮的 "Table"
我有一个导航 Controller 。 NAVC->MORE... 按钮，然后在“更多”下有一些额外的 VC。如果我转到“更多...”下的 VC，然后转到不在“更多...”上的 VC，那么当我返回到
c# - (更多)线程二叉树中旋转节点时的高效锁定
因此，我想出了这种方案，用于在多个线程同时具有读写访问权限的二叉树中旋转时锁定节点，这涉及每次旋转锁定四个节点，这似乎是一个很多吗？我想到了一种比我想出的方法更聪明的方法来减少所需的锁定，但谷歌并没有
css - 无法将我的下拉菜单与下拉按钮对齐(更多)
所以我已经尝试了所有方法，但我似乎仍然无法将下拉内容与 dropbtn 对齐。我只希望内容始终位于更多菜单下方。 HTML: `
linux - 期待和——更多——
我正在尝试使用 expect 来自动接受在 --more-- 中提示的 EULA。 #!/usr/bin/expect spawn "./greenplum-perfmon-web-4.1.2.0-b
javascript - 更多/更少的影响
他们如何在下面提供的网站上制作“告诉我更多”效果。我读过 read more/less effect in jQuery，但我发现该站点的有趣之处在于，除非单击该按钮，否则无法滚动页面。 Effect
scala - 更多 Scala 打字问题
现在，Kim Stebel helped me understanding如何使用存在类型键入变量，我需要知道如何在继承中使用它们: 以下代码无法编译: class PagingListModel(s
cygwin - Cygwin不提供“更多”命令吗？
在我的Cygwin中不可用。另一方面，提供了“ less”命令。也许Cygwin的制造商认为“更多”只是多余的。我对此很好奇。最佳答案安装util-linux软件包，您将获得“更多”的信息 ht
Azure:更多 DTU 还是更多分片？
基本上，我想知道是否有人有增加 DTU 与分片的经验。 DTU应该线性地提高性能。因此，如果您有 5 个 DTU，而您改为 10 个 DTU，那么(理论上)您应该获得大约两倍的性能。因此，四个 SQ
javascript - 更多 DOM 元素造成性能问题
我们使用 asp.net mvc、javascript 和 jQuery(托管在本地计算机上)创建了一个应用程序。基本设计是，当用户从一个页面导航到其他页面时，我们通过隐藏和显示 HTML 页面，将所
haskell - 更多 rmonad 库？
我想用 RMonad 做一些基本的事情。有没有办法使用“as monad”功能来有一个身份 rmonad，可以应用 monad 转换器吗？有诸如 StateT 变压器之类的常见东西吗？向现有 m
c - 如何检查数组的元素是否被占用？ +1 更多
我有一个 char*[] 数组。我需要能够为其分配字符串并再次删除它们，但我不知道: 如何检查一个元素中是否已经有一个字符串，这样我就不会覆盖它，如果它已经被占用，则继续处理下一个元素？之后如何将其
Azure:更多 DTU 还是更多分片？
基本上，我想知道是否有人有增加 DTU 与分片的经验。 DTU应该线性地提高性能。因此，如果您有 5 个 DTU，而您改为 10 个 DTU，那么(理论上)您应该获得大约两倍的性能。因此，四个 SQ
unix - 如何仅在错误输出时使用寻呼机(更多/更少)
我有一个程序可以同时吐出标准错误和标准输出，我想在标准错误上少运行寻呼机，但忽略标准输出。我该怎么做？更新: 就是这样......我不想丢失标准输出......只是让它远离寻呼机 program 2
jquery - 如何让段落的其余部分在“更多...”链接上设置动画？
基本上，当单击具有类 "dropdown" 的链接时，我无法获取“更多...”链接来对下一个跨度的高度进行动画处理。它根本就没有动画。仅当更改为 Less... 链接并且单击 Less... 链接以折
javascript - 更多 Javascript 状态图框架
我正在使用 ExtJS，并认为它是一个了不起的框架。但是，它们没有内置的状态图，这使得依赖于状态的应用程序开发非常痛苦。我最近发现了这个: https://github.com/jakesgordo
c - 更多 C 指针问题
我一直在研究数据结构和算法，遗憾的是在C中。我已经单独实现了一个双向链表，它保存整数并且工作正常，但是当节点(或pub)让它正常工作时我遇到了很多麻烦在本例中)保存多个不同类型的值。我可以创建一个列表
c# 使用声明-更多 = 好还是坏？
编辑拼写错误你好，这可能是一个愚蠢的问题，但如果它能帮助我遵循最佳实践，我不在乎:P 假设我想在 System.Data 命名空间...以及 System.Data.SqlClient 命名空间中
javascript - 单击时更改按钮文本(更多/更少)
使用 bootstrap 3 CSS、font awesome CSS 和最新的 jQuery JS 文件。我正在使用 javascript 在单击按钮时在另一个内容 div 之上隐藏/显示一个内容

首页

博学

6Ren·AI

商城

python - 如何抓取更多数据