gpt4 book ai didi

python - 通过使用 for 循环修改 URL 来迭代网页

转载 作者:可可西里 更新时间:2023-11-01 13:44:04 26 4
gpt4 key购买 nike

我正在尝试从 tripadvisor 抓取特定酒店的数据。

酒店在 tripadvisor 中的 URL 是

https://www.tripadvisor.com/Hotel_Review-g39143-d92240-Reviews-Hawthorn_Suites_by_Wyndham_Wichita_East-Wichita_Kansas.html

页面分隔符出现在“d92240-Reviews”之后,键“-or5-”是 5 的倍数,因为页面返回 5 条评论。

例如

https://www.tripadvisor.com/Hotel_Review-g39143-d92240-Reviews-or5-Hawthorn_Suites_by_Wyndham_Wichita_East-Wichita_Kansas.html

https://www.tripadvisor.com/Hotel_Review-g39143-d92240-Reviews-or10-Hawthorn_Suites_by_Wyndham_Wichita_East-Wichita_Kansas.html

如果页面的 URL 以“&start=(number of results)”结尾,我可以创建一个 for 循环来返回每个页面

for i in range(0,200,5):
url = http://blahblahblah&start= + str(i)

但是我不知道如何使用我的 tripadvisor 网址。

最佳答案

给你:

initial='https://www.tripadvisor.com/Hotel_Review-g39143-d92240-Reviews-Hawthorn_Suites_by_Wyndham_Wichita_East-Wichita_Kansas.html'
url_part1='https://www.tripadvisor.com/Hotel_Review-g39143-d92240-Reviews-or'
url_part2='-Hawthorn_Suites_by_Wyndham_Wichita_East-Wichita_Kansas.html'
print (initial)
for index in range (5,200, 5):
print(url_part1+str(index)+url_part2)

关于python - 通过使用 for 循环修改 URL 来迭代网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48776558/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com