作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试用 Python 进行一些 HTML 解析,说实话,我对此很不擅长。我一直在谷歌搜索方法来做到这一点,但无法让任何东西发挥作用。这是我的情况。我有一个网页,其中有很多下载链接。我想要做的是指定一个搜索字符串,如果我要搜索的字符串存在,则下载该文件。但它需要获取整个文件名。例如,如果我正在搜索 game-1 并且实际游戏的名称是 game-1-something-else,我希望它下载 game-1-1something-else。我已经使用以下代码来获取页面的源代码:
import urllib2
file = urllib2.urlopen('http://www.example.com/my/example/dir')
dload = file.read()
这会获取网页的整个源代码,它本身只是一个目录。例如,我有很多标签。我有
<a href
标签,
<td>
标签等。我想对标签进行字符串化,这样我所拥有的只是网页目录中的文件列表,然后我想使用正则表达式或类似的东西来搜索我正在搜索的内容,采取完整文件名,然后下载。
最佳答案
获得 HTML 数据后,对其进行解析,然后您可以选择页面内的节点:
import lxml.html
tree = lxml.html.fromstring(dload)
for node in tree.xpath('//a'):
print node['href']
关于python - HTML解析得到我想要的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5684275/
使用登录后,我想吐出用户名。 但是,当我尝试单击登录按钮时, 它给了我力量。 我看着logcat,但是什么也没显示。 这种编码是在说。 它将根据我在登录屏幕中输入的名称来烘烤用户名。 不会有任何密码。
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎是题外话,因为它缺乏足够的信息来诊断问题。 更详细地描述您的问题或include a min
我是一名优秀的程序员,十分优秀!