gpt4 book ai didi

python - HTML解析得到我想要的

转载 作者:行者123 更新时间:2023-11-30 23:53:27 26 4
gpt4 key购买 nike

我正在尝试用 Python 进行一些 HTML 解析,说实话,我对此很不擅长。我一直在谷歌搜索方法来做到这一点,但无法让任何东西发挥作用。这是我的情况。我有一个网页,其中有很多下载链接。我想要做的是指定一个搜索字符串,如果我要搜索的字符串存在,则下载该文件。但它需要获取整个文件名。例如,如果我正在搜索 game-1 并且实际游戏的名称是 game-1-something-else,我希望它下载 game-1-1something-else。我已经使用以下代码来获取页面的源代码:


import urllib2
file = urllib2.urlopen('http://www.example.com/my/example/dir')
dload = file.read()
这会获取网页的整个源代码,它本身只是一个目录。例如,我有很多标签。我有 <a href标签, <td>标签等。我想对标签进行字符串化,这样我所拥有的只是网页目录中的文件列表,然后我想使用正则表达式或类似的东西来搜索我正在搜索的内容,采取完整文件名,然后下载。

最佳答案

获得 HTML 数据后,对其进行解析,然后您可以选择页面内的节点:

import lxml.html
tree = lxml.html.fromstring(dload)
for node in tree.xpath('//a'):
print node['href']

关于python - HTML解析得到我想要的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5684275/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com