gpt4 book ai didi

python - 去掉 URL 的一部分并保存文件

转载 作者:太空宇宙 更新时间:2023-11-04 10:40:29 29 4
gpt4 key购买 nike

http://amz.com/New-Balance-WT910-Trail-Running/dp/B0098FOFCW/ref=zg_bsms_shoes_2

我不需要最后一个/ref=zg_bsms_shoes_2

我在 urls=[]

中有值
for productlink in products:
self.urls.append(productlink)

def save(self):
self.br.quit()
f=open(self.product_file,"w")
for url in self.urls:
f.write(url+"\n")
f.flush()

如何剥离?如果我没有/ref=?

最佳答案

我强烈建议您从 urlparse 开始:

在 python3 中:

>>> import os
>>> from urllib.parse import urlparse
>>> os.path.split(urlparse(url).path)[0]
'/New-Balance-WT910-Trail-Running/dp/B0098FOFCW'

urlparse 会将 URL 转换为其所有组成部分,然后您可以通过多种方式处理路径,简单的字符串拆分,os.path.split ,正则表达式,任何你喜欢的。

在 Python2 中只需使用 from urlparse import urlparse

关于python - 去掉 URL 的一部分并保存文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20915951/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com