gpt4 book ai didi

python - 从 BeautifulSoup 中抓取 Instagram

转载 作者:太空宇宙 更新时间:2023-11-03 14:50:52 24 4
gpt4 key购买 nike

我想获取此页面中帖子的 URL 列表,并从每个 URL 中获取所需的数据...

import requests
from bs4 import BeautifulSoup
import selenium.webdriver as webdriver
url = 'https://www.instagram.com/louisvuitton/'
driver = webdriver.Firefox()
driver.get(url)
soup = BeautifulSoup(driver.page_source, 'lxml')
data1 = soup.find_all('div', {'class': '_cmdpi'})
list1 =[]
for links in data1:
list1.append(links.a['href'])
print list1

但是为什么这只获取第一个链接而不是列表?

最佳答案

这是因为有多个链接,但只有一个 div 带有 class="+cmdpi"...所以 data1 是列表仅由一个元素组成。尝试下面的代码来获取所需的引用,而不使用 bs4:

url = 'https://www.instagram.com/louisvuitton/'
driver = webdriver.Firefox()
driver.get(url)
links = [a.get_attribute('href') for a in driver.find_elements_by_css_selector('div._cmdpi a')]
print links

关于python - 从 BeautifulSoup 中抓取 Instagram,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45904953/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com