gpt4 book ai didi

python - 简单的动态网页抓取 - 没有 BeautifulSoup

转载 作者:行者123 更新时间:2023-12-01 05:50:38 26 4
gpt4 key购买 nike

我正忙着尝试抓取一个动态网站,以便获取一个 URL,每次游戏更新时我都可以使用该 URL 下载游戏的服务器软件。

该网站是“http://craftstud.io/builds”,上面写着“Server XX.X.X.X”,这就是我想要抓取的内容。

我真的不希望它因 Javascript 和外部模块而变得复杂,所以如果有一个简单的解决方案,我会洗耳恭听。

我也无法安装第三方模块,例如 BeautifulSoup(愚蠢的 Windows)。

谢谢大家!

最佳答案

如果您想要简单的东西,请考虑使用简单的 regular expression :

>>> import re
>>> import urllib2
>>> html = urllib2.urlopen("http://craftstud.io/builds").read()
>>> re.search(r"Server \d+\.\d+\.\d+\.\d+", html).group()
'Server 0.1.24.1'

也就是说,如果你可以安装 BeautifulSoup4通过 pip,您将来会发现它有很多用处。 (确保您使用 pip install BeautifulSoup4 而不是仅仅 pip install BeautifulSoup 我几天前刚刚在 Windows 计算机上安装了一个副本。)

关于python - 简单的动态网页抓取 - 没有 BeautifulSoup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14446634/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com