gpt4 book ai didi

python - 如何使用 Python 浏览网站并提取数据

转载 作者:太空宇宙 更新时间:2023-11-03 17:10:45 24 4
gpt4 key购买 nike

我算不上一个程序员。只是学习。我想使用 Python 从我国选举机构中提取(公共(public))选举数据。这是出于学术目的,但我也想发展我的编程技能。当然,我存储的所有数据都将公开发布。

我需要知道哪些 python 模块允许我进入网站并读取 HTML 以识别我需要收集的某些数据。我只是希望得到一些关于如何做的指南,或者任何人有的任何其他建议。

我希望提取各政党的选票,并完全分类呈现额外数据:州/市/县/中心/表。最后,我希望将其存储在 csv 或 xlsx 中(我想我会使用 openpyxlxlsxwriter )。

我的想法是制作一个程序:

1) 获取链接输入 ( e.g. );

2) 它标识 HTML 左侧每个州的链接(Amazonas、Anzoategui 等);

3) For 循环遍历每个状态并找到每个状态的 url(它是一个 HTML,所以我猜它会搜索并提取 <a> 标记,对吗?);

4) 与市政当局重复;

4) 重复“Parroquia”(县);

5)对每个投票中心重复;

6) 最后对于每个中心的每个投票表(1、2、3...等等);

7) 接下来,它存储每个政党的结果(eg. 手动输入每个候选人的姓名,识别政党的 Logo 并存储其选票(示例中为 30))。并且它还应该在最后存储“技术表”中的数据。

最终结果应该是存储所有数据:州、市、县、中心、表以及各方的结果。

最佳答案

以下内容会有所帮助:

from selenium import webdriver - 用于设置新的网络驱动程序以访问网站。 (Chrome 的效果很好)

from selenium.webdriver.common.by import By - 用于通过 css 选择器、标签名称、id 等选择 html 元素

from selenium.webdriver.support.ui import WebDriverWait - 用于设置要加载的网址的最短加载时间

from selenium.webdriver.support import Expected_conditions as EC - 设置预期条件,以便在等待 URL 加载时采取操作。例如,条件可能会等待直到所有 <a>标签已加载。

from selenium.webdriver.common.keys import Keys - 用于模拟按键或将文本发送到 HTML 元素

from BeautifulSoup import BeautifulSoup - 用于解析下载的 HTML 文档

导入重新 - 启用正则表达式

导入 xlwt - 用于写入 Microsoft Excel 工作簿

from xlutils.copy import copy - 用于创建 Microsoft Excel 工作簿的副本

导入时间 - 用于设置 Python 代码执行时的暂停时间

导入 xlrd - 用于从 Microsoft Excel 工作簿读取

要下载的包:

  1. xlrd 0.9.4

  2. xlutils 1.7.1

  3. xlwt 1.0.0

  4. BeautifulSoup 4.4.1

  5. Selenium 2.48.0

以上大部分内容都可以从python package index下载

关于python - 如何使用 Python 浏览网站并提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34120411/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com