gpt4 book ai didi

python - 在python中序列化 BeautifulSoup 和xpath树

转载 作者:太空宇宙 更新时间:2023-11-03 11:03:19 25 4
gpt4 key购买 nike

首先,有 python 脚本来获取给定 url 的 xpath 树和漂亮的汤。

# get tree
def get_tree(url):
r = requests.get(url)
tree = html.fromstring(r.content)
return tree

# get soup
def get_soup(url):
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)
return soup

我们经常需要 tree 和 soup 来导航源代码页面并提取我们需要的有用信息。但是我们可能经常有错误然后修复它,或者我们改变了我们真正需要的信息的想法。所以从这个意义上说,序列化 soup 和 xpath 树可能是个好主意,我们可以提前做一次。但是我们如何在 python 中序列化漂亮的汤和 xpath 树呢?有没有数据库可以存储汤或树对象?如果没有,是否有手动序列化它们的示例代码?谢谢

最佳答案

我从你的问题中了解到,你想要存储 soup 变量,这样你就不必在调试时一遍又一遍地请求 url。好像你不知道 python pickle module它可以序列化任何对象。它并非没有问题,但对于您的调试需求,它可以帮助您,而且非常简单。

import pickle
pickle.dump(soup, open("soup.pickle","w"))
# then when you need to load the soup again
soup = pickle.load(open("soup.pickle","r"))

现在你得到了泡菜汤! :D

关于python - 在python中序列化 BeautifulSoup 和xpath树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26954865/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com