gpt4 book ai didi

python - 如何将整个网页读入变量

转载 作者:太空狗 更新时间:2023-10-29 21:32:20 24 4
gpt4 key购买 nike

我正在尝试读取整个网页并将其分配给一个变量,但在这样做时遇到了问题。该变量似乎只能保存页面源代码的前 512 行左右。

我尝试使用 readlines() 将源代码的所有行打印到屏幕上,这给了我完整的源代码,但我需要能够使用正则表达式解析它,所以我需要将它存储在一个变量不知何故。帮忙?

 data = urllib2.urlopen(url)
print data

只提供了大约 1/3 的源代码。

 data = urllib2.urlopen(url)
for lines in data.readlines()
print lines

这给了我完整的来源。

就像我说的,我需要能够使用正则表达式解析字符串,但我需要的部分不在我能够存储在我的变量中的前 1/3 中。

最佳答案

您可能正在寻找美丽的汤:http://www.crummy.com/software/BeautifulSoup/它是一个用于 python 的开源 Web 解析库。祝你好运!

关于python - 如何将整个网页读入变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10908336/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com