gpt4 book ai didi

python - 使用 Python 从 Wikipedia html 中提取文本

转载 作者:行者123 更新时间:2023-12-01 05:00:42 28 4
gpt4 key购买 nike

我正在尝试寻找一种使用 python 提取维基百科文章正文的方法。我知道“wikipedia”库,但就我而言,我已经下载了 html 页面,我只需要提取文本。我无法使用该库,因为我需要使用几年前下载的维基百科页面 html,所以我无法从头开始下载它。

是否有“现成的”解决方案可供我用于此目的?

最佳答案

尝试BeautifulSoup:

from bs4 import BeautifulSoup
import requests

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow")
soup = BeautifulSoup(respond.text)
l = soup.find_all('p')
print l[0].text

关于python - 使用 Python 从 Wikipedia html 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26284526/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com