gpt4 book ai didi

python - 将 html 保存到文件中,以便以后使用 Beautiful Soup 使用

转载 作者:行者123 更新时间:2023-12-05 09:32:40 25 4
gpt4 key购买 nike

我正在用 Beautiful Soup 做很多工作。但是,我的主管不希望我通过网络“实时”完成工作。相反,他希望我从网页上下载所有文本,然后再处理。他想避免重复点击网站。

这是我的代码:

import requests
from bs4 import BeautifulSoup

url = 'https://scholar.google.com/citations?user=XpmZBggAAAAJ'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')

我不确定是否应该将“page”保存为文件然后将其导入 Beautiful Soup,或者我是否应该将“soup”保存为文件以便稍后打开。我也不知道如何以一种可以像从互联网上“实时”访问的方式将其保存为文件。我对 Python 几乎一无所知,因此我需要绝对最简单的过程。

最佳答案

所以保存汤会很困难,而且根据我的经验(如果有兴趣,请阅读更多关于 pickleing 过程的信息)。您可以按如下方式保存页面:

page = requests.get(url)
with open('path/to/saving.html', 'wb+') as f:
f.write(page.content)

然后,当你想对其进行分析时:

with open('path/to/saving.html', 'rb') as f:
soup = BeautifulSoup(f.read(), 'lxml')

无论如何,类似的东西。

关于python - 将 html 保存到文件中,以便以后使用 Beautiful Soup 使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67829316/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com