Python 抓取维基百科表然后导出到 csv-6ren

Python 抓取维基百科表然后导出到 csv

转载作者：行者123 更新时间：2023-12-01 07:41:59

25

4

我已按照教程抓取表格，然后将数据导出到 csv 文件。当我尝试执行文件时，我通过 PyCharm 收到错误

"回溯(最近一次调用最后一次): 文件“I:/Scrape/MediumCode.py”，第 1 行，位于导入请求ModuleNotFoundError:没有名为“请求”的模块“

我还假设代码及其逻辑中存在其他错误，但这是我遇到的第一个问题，如果不了解为什么该库无法识别，就无法进一步解决

成功运行 pip install 请求

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'https://en.wikipedia.org/wiki/Public_holidays_in_Switzerland'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

page_soup = soup(page_html, "html.parser")

containers = page_soup.findAll("table", {"class":"wikitable"})

filename = "holidays.csv"
f = open(filename, "w")

headers = "holiday, holiday_date"

f.write(headers)

for container in containers:
    holiday = container.table.tbody.tr.td.a["title"]

    name_container = container.findAll("a", {"class":"title"})
    holiday_name = name_container[0].text

    date_container = container.findAll("td")
    date = date_container[0].text.strip()

    print("holiday: " + brand)
    print("holiday_name: " + holiday_name)
    print("date: " + date)

    f.write(holiday + "," + holiday_name.replace(",", "|") + "," + date + "\n")

    f.close()

最佳答案

使用pandas库

.read_html( ) - 将 HTML 表读入 DataFrame 对象列表中。
.to_csv() - 将对象写入逗号分隔值 (csv) 文件。

<小时/>

import requests
import pandas as pd

url = 'https://en.wikipedia.org/wiki/Public_holidays_in_Switzerland'
response = requests.get(url)

tables = pd.read_html(response.text)

# write holiday table data into `holiday_data` csv file
tables[0].to_csv("holiday_data.csv")

Install pandas library

pip3 install pandas

如果 requests 库仍未在您的系统中抛出错误，请尝试以下操作:

from urllib.request import urlopen as uReq
import pandas as pd

url = 'https://en.wikipedia.org/wiki/Public_holidays_in_Switzerland'
response = uReq(url)
tables = pd.read_html(response.read())
#select only holiday column
select_table_column = ["Holiday"]
'''
    #or select multiple columns 
    select_table_column = ["Holiday","Date"]

'''
# filter table data by selected columns
holiday = tables[0][select_table_column]

# # write holiday table data into `holiday_data` csv file and set csv header
holiday.to_csv("holiday_data.csv",header=True)

关于Python 抓取维基百科表然后导出到 csv，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56656093/

25

4

0

文章推荐： jquery - 定位一个元素

文章推荐： python - 如何根据 python 中的优先级列表选择列中的元素？

文章推荐： python - Django-Filer 规范 URL 无法正常工作(找不到页面)

Sharepoint 维基
好吧，我看过一些帖子提到其他一些关于不使用 SP wiki 的帖子，因为它们很糟糕。既然我们正在考虑在 SP 中创建 wiki，我需要知道为什么我们不应该让 6 名自动化开发人员来记录各种自动化流程
git - 差异 GitLab 维基
在 GitLab Wiki 部分，可以查看保存更改的历史记录。但是，当您单击提交链接时，它将显示该保存中存在的整个文件。有谁知道一种方法来区分提交以仅获取两个提交之间的差异？这类似于它在 merge
javascript - 维基 API 请求不起作用
我使用了 Wiki API 文档中的一些示例代码，但是当我输入搜索项时，没有任何反应。控制台中没有错误，什么也没有。如果我将 URL 输入到浏览器中，URL 本身就会起作用，所以我认为代码中的某些内容
wiki - BitBucket 维基 : Create a hierarchy structure?
我想在我的 wiki 中创建一个层次结构，如下所示: General FooPages Foo1 Foo2 Foo3 ODP Bar Baz 我想创建这些页
python - Python 维基 map API (PyMapia)
我正在尝试使用为 Python 制作的 Wikimapia 的 pymapia API，但无法理解如何正确使用它。 import pymapia as PyMapia a = PyMapia.PyMa
ios - OS X 维基/博客服务器 API
我正在开发适用于 iOS 的客户端应用程序，用于在 Mac OS X 服务器(Snow Leopard 和 Lion)上编辑内置的 Wiki/Blog。看来我们可以使用 MetaWeblog 、At
url-rewriting - 哪种 URL 重写方案更可取？维基/博客风格？
我正在编写一些 URL 重写软件，我想从多个角度了解哪种 URL 方案更可取: 博客风格:my-chemistry-answer -- 为什么？ -- (不可取，技术性) Wiki 风格:My_Che
azure-devops - Azure DevOps 维基 : How can I link the subpages in the parent page?
我一直试图找到一种方法来在 Azure DevOps Wiki 中创建子页面的目录。我从其他 wiki 服务中找到了方法。在 Confluence 中，他们有一个用于“ child 显示”的宏我为

首页

博学

6Ren·AI

商城

Python 抓取维基百科表然后导出到 csv