gpt4 book ai didi

python - 使用 urllib 获取标题

转载 作者:行者123 更新时间:2023-12-01 04:24:52 27 4
gpt4 key购买 nike

我应该编写一个进入网站并获取其标题的代码,所以这是我的代码

import urllib.request
def findTitle(url):
urllib.request.Request(url)
#open url
urllib.request.urlopen(url)
urllib.request.urlopen(url).read().decode('utf-8')
#set same variable equal to the end of <title> tag
endTitlePos = url.find("<title>")
#set variable equal to starting position of <title> tag
startTitlePos = url.find("<title>", endTitlePos)
startTitlePos += len("<title>")
#set new variable equal to </title>
TitleContent=url.find("</title>",startTitlePos)
#return slice of output between the two variables
title = url[startTitlePos:endTitlePos]
content_list=[]
content_list.append(title)
return content_list
def main():
url="https://google.com/search"
print(findTitle(url))

主函数

我们以谷歌为例。现在它应该只打印“google”,但目前它打印“['//google.com/searchar']”我只是好奇我在这里缺少什么,我的意思是它看起来很简单,但我不知道为什么它打印url 而不是标题,我如何将其从列表转换为字符串?

最佳答案

有多种方法可以从网页获取数据。最好用BeautifulSoup。在您的情况下,字符串 split() 方法效果很好

import urllib.request

def findTitle(url):
webpage = urllib.request.urlopen(url).read()
title = str(webpage).split('<title>')[1].split('</title>')[0]
return title

>>>print(findTitle('http://www.google.com'))
Google

关于python - 使用 urllib 获取标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33272548/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com