gpt4 book ai didi

python - 如何在 Python 中解析 URL 为 "html written"的 HTML 代码?

转载 作者:行者123 更新时间:2023-11-28 03:34:04 25 4
gpt4 key购买 nike

我开始用 Python 编程,并且阅读了几篇文章,他们说我应该使用 HTML 解析器从文本中获取 URL,而不是重新获取。

我有从 page.read()urlliburlopen 获得的源代码。

现在,我的问题是解析器正在从文本中删除 url 部分。

另外,如果我没看错的话,var = page.read()var 是作为字符串存储的吗?

我如何告诉它给我两个“标签”之间的文本? URL 始终位于 flv=; 之间,因此它不会以解析器寻找的 href 开头,而且它也不包含 http://

看了很多帖子,好像都是在代码里找``href。

我是不是完全错了?

谢谢!

最佳答案

您可以考虑实现自己的搜索/抓取。在伪代码中,它看起来有点像这样:

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between: HTML[location_start : location_end]

你应该能够在 python 中实现它。

祝你好运!

关于python - 如何在 Python 中解析 URL 为 "html written"的 HTML 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15603356/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com