gpt4 book ai didi

python html 解析

转载 作者:行者123 更新时间:2023-11-30 23:39:34 26 4
gpt4 key购买 nike

我有以下问题:

我想解析 html 文件并从 html 文件获取链接。我可以通过以下代码获取链接:

class MyHTMLParser(HTMLParser):
links=[]
def __init__(self,url):
HTMLParser.__init__(self)
self.url = url

def handle_starttag(self, tag, attrs):
try:
if tag == 'a':
for name, value in attrs:
if name == 'href':
if value[:5]=="http:":
self.links.append(value)
except:
pass

但是我不想获取音频文件、视频文件等,我只想获取html链接。我怎样才能做到这一点?

最佳答案

I can check link ending and if it is particular format I can avoid appending that link to the list. Is there other way?

您可以查看'Content-Type' header :

import urllib2
url = 'https://stackoverflow.com/questions/13431060/python-html-parsing'
req = urllib2.Request(url)
req.get_method = lambda : 'HEAD'
response = urllib2.urlopen(req)
content_type = response.headers.getheader('Content-Type')
print(content_type)

产量

text/html; charset=utf-8
<小时/>

非常感谢 @JonClements 的 req.get_method = lambda : 'HEAD'。有关发送 HEAD 请求的此方法和替代方法的更多信息,请参阅 here .

关于python html 解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13431060/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com