gpt4 book ai didi

python - 如何抓取多个 div(并将它们放入 csv 中)?

转载 作者:行者123 更新时间:2023-12-01 08:18:34 25 4
gpt4 key购买 nike

我有这段代码可以从 Twitter 上的媒体中抓取标记的用户 ID:

from bs4 import BeautifulSoup
from selenium import webdriver
import time
import csv
import re

# Create a new instance of the Firefox driver
driver = webdriver.Firefox()

# go to page
driver.get("http://twitter.com/RussiaUN/media")

#You can adjust it but this works fine
SCROLL_PAUSE_TIME = 2

# Get scroll height
last_height = driver.execute_script("return document.body.scrollHeight")

while True:
# Scroll down to bottom
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# Wait to load page
time.sleep(SCROLL_PAUSE_TIME)

# Calculate new scroll height and compare with last scroll height
new_height = driver.execute_script("return document.body.scrollHeight")
if new_height == last_height:
break
last_height = new_height


# Now that the page is fully scrolled, grab the source code.
src = driver.page_source

#Past it into BS
soup = BeautifulSoup(src, 'html.parser')
#divs = soup.find_all('div',class_='account')
divs = soup.find_all('div', {"data-user-id" : re.compile(r".*")})


#PRINT RESULT
#print('printing results')
#for div in divs:
# print(div['data-user-id'])


#SAVE IN FILE
print('Saving results')
#with open('file2.csv','w') as f:
# for div in divs:
# f.write(div['data-user-id']+'\n')

with open('file.csv','w', newline='') as f:
writer = csv.writer(f)
for div in divs:
writer.writerow([div['data-user-id']])

-但我还想抓取用户名,然后将所有这些数据组织在 csv 中,其中包含 IDS 列和 USERNAMES 列。

所以我的猜测是我必须先修改这段代码:

divs = soup.find_all('div', {"data-user-id" : re.compile(r".*")})

但我找不到实现这一目标的方法......

-然后我也遇到了重复的问题。正如您在代码中看到的,有两种方法可以抓取数据:

1 #divs = soup.find_all('div',class_='account')

2 divs = soup.find_all('div', {"data-user-id": re.compile(r".*")})

第一个短语似乎有效,但效率不够。 Number 2 工作正常,但似乎在最后给了我重复项,因为它遍历了所有 div 而不仅仅是 class_='account'

如果有人觉得我在这里有点垃圾邮件,我很抱歉,因为我在 24 小时内发布了 3 个问题......并且感谢那些提供帮助和将要提供帮助的人。

最佳答案

Python 有一个内置的 csv module用于写入 csv 文件。

此外,您使用的滚动脚本似乎不起作用,因为它没有一直向下滚动并在一段时间后停止。我刚刚使用您的脚本在 csv 文件中获得了约 1400 条记录。我已将其替换为向下翻页键。您可能需要调整 no_of_pagedowns 来控制要向下滚动的量。即使向下翻页 200 次,我也获得了大约 2200 条记录。请注意,这个数字没有删除重复项。

我添加了一些额外的修改,以便仅将唯一数据写入文件。

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import csv
driver = webdriver.Firefox()
driver.get("http://twitter.com/RussiaUN/media")
time.sleep(1)
elem = driver.find_element_by_tag_name("html")
no_of_pagedowns = 200
while no_of_pagedowns:
elem.send_keys(Keys.PAGE_DOWN)
time.sleep(2)
no_of_pagedowns-=1


src = driver.page_source

soup = BeautifulSoup(src, 'html.parser')
divs = soup.find_all('div',class_='account')
all_data=[]
#get only unique data
for div in divs:
single=[div['data-user-id'],div['data-screen-name']]
if single not in all_data:
all_data.append(single)
with open('file.csv','w') as f:
writer = csv.writer(f, delimiter=",")
#headers
writer.writerow(["ID","USERNAME"])
writer.writerows(all_data)

输出

ID,USERNAME
255493944,MID_RF
2230446228,Rus_Emb_Sudan
1024596885661802496,ambrus_drc
2905424987,Russie_au_Congo
2174261359,RusEmbUganda
285532415,tass_agency
34200559,rianru
40807205,kpru
177502586,nezavisimaya_g
23936177,vzglyad
255471924,mfa_russia
453639812,pass_blue
...

如果您想要重复项,只需删除 if 条件

for div in divs:
single=[div['data-user-id'],div['data-screen-name']]
all_data.append(single)

关于python - 如何抓取多个 div(并将它们放入 csv 中)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54832984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com